CN114529096A - 基于三元闭包图嵌入的社交网络链路预测方法及系统 - Google Patents
基于三元闭包图嵌入的社交网络链路预测方法及系统 Download PDFInfo
- Publication number
- CN114529096A CN114529096A CN202210181966.4A CN202210181966A CN114529096A CN 114529096 A CN114529096 A CN 114529096A CN 202210181966 A CN202210181966 A CN 202210181966A CN 114529096 A CN114529096 A CN 114529096A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- embedding
- social network
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000005070 sampling Methods 0.000 claims abstract description 65
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 230000002776 aggregation Effects 0.000 claims description 35
- 238000004220 aggregation Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 17
- 239000002356 single layer Substances 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 abstract description 17
- 239000010410 layer Substances 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 241000699800 Cricetinae Species 0.000 description 2
- 108010058643 Fungal Proteins Proteins 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于三元闭包图嵌入的社交网络链路预测方法及系统,该方法包括:对于给定的社交网络,根据采样节点的三元闭包结构,计算每个节点的节点嵌入;在社交网络中任取两个节点作为待预测节点,根据每个所述待预测节点的三元闭包采样节点数,计算所述两个待预测节点的拼接权重;根据所述拼接权重和节点嵌入,得到所述两个待预测节点间生成的边嵌入;利用全连接神经网络将边嵌入转化为二分类任务,根据二分类任务结果预测任意两个节点之间是否存在链接。本发明充分利用社交网络中节点的结构信息,并考虑节点邻居之间的差异性,采用深度神经网络确保社交网络链路预测的准确性。
Description
技术领域
本发明属于社交网络分析技术领域,尤其涉及一种基于三元闭包图 嵌入的社交网络链路预测方法及系统。
背景技术
链接预测是指对丢失的链接或未来可能发生的链接进行预测的任务。 这一任务在多个应用领域中都有着非常重要的应用,包括自动超链接创 建、网站超链接预测、推荐系统和社区检测;例如计算社交网络中两个 用户成为好友的可能性,为用户推荐与其成为好友可能性高的用户,即 两个用户间的链接预测。
现有技术中的链接预测方法,主要可以分为三类:基于相似性、基 于概率和基于嵌入的预测方法。
相似性的方法通过几种相似性度量方法来提取两个节点之间的相似 性,然后,将所有节点对根据它们的相似性来进行排序,找到其中相似 度最大的节点对,假定它们之间存在链路。基于相似性的方法受到相似 特征的限制,导致最终的预测结果准确性不高;基于概率的算法是建立 含有可调参数的模型,通过优化参数来模拟真实网络的特征和拓扑结构; 除了结构信息,基于概率的方法通常需要更多信息,例如节点或边的属 性信息;提取这些额外的属性信息既复杂又耗时,并且会导致维度爆炸。 因此,这些模型不适用于大型网络。
针对上述问题,提出了网络嵌入这一降维技术,通过将图的高维节 点映射到低维向量空间来保留节点的邻域结构。图卷积网络(GCN)在 图上定义了一个卷积算子,并迭代地聚合一个节点的采样节点的嵌入以 获得它的新嵌入;但是,其所有节点的汇聚权重相同,忽视了节点间的 结构差异。GraphSAGE通过均匀采样得到一个固定大小的邻居集,然后通过特征聚合生成节点嵌入;但是,抛弃部分节点会造成信息丢失,尤 其是在度值较小的网络上,会造成更严重的信息丢失;CensNet通过使用 原始无向图的线图将节点和边共同嵌入到潜在特征空间;这些基于边缘 的方法对于图嵌入是有效的,但是,由于边的数量通常远大于网络中节 点的数量,直接嵌入边需要花费更多的时间,这使得链路预测效率低下。
由两个节点嵌入生成边嵌入时,现有方法主要包括Hadamard乘积、 求和或直接连接。这些方法将两个节点视为等价的节点,没有考虑它们 对边形成的不同贡献。因此,会导致局部结构信息的丢失,影响链路预 测的性能。
综上所述,现有基于嵌入的社交网络链路预测方法存在以下不足: (1)传统方法在获取节点嵌入时,需要为每个节点分配完全不同的权重, 或在聚合过程中对所有邻居共享完全相同的权重,不能以较低的节点聚 合成本很好地保留全局结构信息;(2)当从两个节点嵌入生成边嵌入时, 现有方法将两个节点等效看待,而不考虑它们对边形成的不同贡献,会 导致局部结构信息的丢失,影响链路预测的性能。
发明内容
鉴于上述的分析,本发明旨在提供一种基于三元闭包及其图嵌入的 社交网络链路预测方法及系统,用于解决现有技术中基于图嵌入的方法 无法保留网络中节点的全局结构信息,会导致局部结构信息丢失的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供一种基于三元闭包图嵌入的社交网络链路预测 方法,其特征在于,包括以下步骤:
对于给定的社交网络,根据采样节点的三元闭包结构,计算每个节 点的节点嵌入;其中,所述采样节点包括该节点及其邻居节点;
在社交网络中任取两个节点作为待预测节点,根据每个所述待预测 节点的三元闭包采样节点数,计算所述两个待预测节点的拼接权重;
根据所述拼接权重和节点嵌入,得到所述两个待预测节点间生成的 边嵌入;
利用全连接神经网络将边嵌入转化为二分类任务,根据二分类任务 结果预测任意两个节点之间是否存在链接。
进一步的,所述根据采样节点的三元闭包结构,计算每个节点的节 点嵌入,包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其对应的 采样节点分为三元闭包节点和非三元闭包节点两种类型;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的初始 节点嵌入表示;
将每个节点的所述初始节点嵌入表示输入多通道单层神经网络,完 成节点嵌入的特征映射,得到网络中所有节点的节点嵌入。
进一步的,前述的为每种类型的节点分配不同的聚合权重包括:
三元闭包节点的聚合权重为1;
进一步的,根据下述公式计算网络中每个节点的节点嵌入:
其中,G表示社交网络中所有节点集合,T表示所述采样节点中三元 闭包节点集合,N表示采样节点中的节点数量,li表示节点i的采样节点 中三元闭包节点数。
进一步的,利用下述公式计算两个节点的拼接权重,
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的采样节点中三元闭包节 点数。
进一步的,利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j 的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
进一步的,所述根据二分类任务结果预测两个节点之间是否存在链 接,包括:
将所述边嵌入输入到全连接神经网络,将边嵌入降维成二维,得到 二维的边嵌入表示;
将二维的边嵌入表示经过softmax激活函数,得到最终的预测分数;
若预测分数大于0.5,则预测为两个节点间存在链接。
进一步的,本发明还涉及一种基于三元闭包图嵌入的社交网络链路预 测系统,其特征在于,包括:
节点嵌入计算模块,用于根据社交网络中的三元闭包结构计算每个 节点的节点嵌入;
边嵌入计算模块,与所述节点嵌入计算模块相连,用于根据待预测 节点的三元闭包采样节点数,计算两个节点间的拼接权重;根据所述拼 接权重计算两节点间生成的边嵌入;
链路预测模块,与所述边嵌入计算模块相连,利用全连接神经网络 将所述边嵌入转化为二分类任务,根据所述二分类任务结果预测节点之 间是否存在链接。
进一步的,所述节点嵌入计算模块,用于计算每个节点的节点嵌入, 还包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其采样得 到的节点分为两种类型,即三元闭包节点和非三元闭包节点;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的节点 嵌入表示;
将所述节点嵌入表示输入多通道单层神经网络,完成节点嵌入的特 征映射,得到网站中所有节点的节点嵌入。
进一步的,根据下述公式计算网络中每个节点的节点嵌入:
其中,G表示社交网络中所有节点集合,T表示三元闭包采样节点集 合,N表示采样节点的数量,li表示节点i的采样节点中三元闭包节点数;
利用下述公式计算两个节点的拼接权重,
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的三元闭包采样节点数;
利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j 的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
本技术方案的有益效果:
本发明解决了现有方法无法实现以高效率完成节点聚合并很好地保 留全局结构信息的问题。利用社交网络的三元闭包结构将采样节点分为 三元闭包节点和非三元闭包节点,并为它们分配不同的聚合权重。较大 的权重将分配给三元闭包节点,因为它们更有影响力。不同的聚合权重 使得中心节点的嵌入偏向三元闭包节点,这符合社交网络中信息传播的 规律。此外,
另外本发明解决了传统的边嵌入方法难以保留丰富的局部结构信息 的问题。提出了一种通过两个端节点嵌入的加权求和来生成边嵌入的新 方法。权重基于每个节点的三元闭包采样节点数,其中三元闭包邻居节 点越多意味着节点的重要性越高,因此权重越高。通过节点嵌入的加权 求和获得边嵌入,可以更好地保留节点的局部结构信息两端节点;故本 发明的基于三元闭包图嵌入的社交网络链路预测方法能够更好的保留局 部和全局信息,进一步提升了链路预测的效果。
本发明的关键技术点:
1.利用社交网络的三元闭包结构将采样节点分为三元闭包节点和非 三元闭包节点,并为不同类型的节点分配不同的聚合权重,使得预测结 果更加符合社交网络中信息传播的规律。
2.通过两个端节点嵌入的加权求和来生成边嵌入的新方法。基于每 个节点的三元闭包节点数分配不同的权重,解决了传统边嵌入方法难以 保留丰富的局部结构信息的问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的 从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的 和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指 出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制, 在整个附图中,相同的参考符号表示相同的部件。
图1为本发明所述的基于三元闭包图嵌入的社交网络链路预测方法 的流程示意图。
图2为本发明所述的基于三元闭包图嵌入的社交网络链路预测系统 的结构示意图。
图3为简单社交网络的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本 申请一部分,并与本发明的实施案例一起用于阐释本发明的原理,并非 用于限定本发明的范围。
社交网络图可以为如下真实网络:US-Air美国航空网络图、BN生物 视网膜网络图、Blog美国政治博客图、Hamster网站上的用户关系图、 Biology生物网络的范畴、Yeast酵母蛋白质之间的交互式网络图、 Facebook的网络图等、Wing鸟翼架构上的网络图等。
本发明的技术构思:社交网络中的节点可以根据三元闭包结构分为 三元闭包节点和非三元闭包节点,三元闭包节点具有更强的影响力,在 节点嵌入过程中,为三元闭包采样节点分配较大的聚合权重,使得节点 的嵌入偏向三元闭包采样节点,这符合社交网络中信息传播的规律。此 外,传统的边嵌入方法难以保留丰富的局部结构信息,本发明提出了一 种通过两个节点嵌入的加权求和来生成边嵌入的新方法;权重分配基于 每个节点的三元闭包邻居数,其中三元闭包邻居越多意味着节点的重要 性越高,因此权重越高。通过节点嵌入的加权求和获得边嵌入,可以更 好地保留节点的局部结构信息;故本发明的基于三元闭包图嵌入的社交 网络链路预测方法能够更好的保留局部和全局信息,进一步提升链路预 测的效果。
实施例一:
图1为本发明所述的基于三元闭包图嵌入的社交网络链路预测方法 的流程示意图。
本实施例提供一种基于三元闭包图嵌入的社交网络链路预测方法, 如图1所示,包括:
步骤S110、对于给定的社交网络,根据每个节点的采样节点的三元 闭包结构,计算每个节点的节点嵌入;包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其采样得 到的节点分为两种类型,即三元闭包节点和非三元闭包节点;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的节点 嵌入表示;
将每个节点的所述节点嵌入表示输入多通道单层神经网络,完成节 点嵌入的特征映射,得到网络中所有节点的节点嵌入。
其中,为每种类型的节点分配不同的聚合权重包括:
三元闭包节点的聚合权重设为1;
利用下述公式计算每个节点的节点嵌入表示:
其中,G表示社交网络中所有节点集合,T表示三元闭包节点集合, N表示采样节点的数量,li表示节点i的采样节点中三元闭包节点数。
最后通过多通道单层神经网络完成节点嵌入的特征映射,即使用多 通道单层神经网络进行降维,得到最终的节点嵌入。
特殊的,本实施例采用的多通道单层神经网络包含两个通道,每一 通道为一个单层神经网络(感知机),单层神经网络输入层维度为g,g 为前述社交网络中所有节点总数;输出层维度为128;将两通道得到的嵌 入结果求均值,完成了节点嵌入的特征映射,得到128维节点嵌入表示。
需要说明的是,社交网络中的三元闭包节点具有更强的影响力,在 节点嵌入过程中,为三元闭包采样节点分配较大的聚合权重,使得节点 的嵌入偏向三元闭包采样节点,这符合社交网络中信息传播的规律,由 此预测出的社交链路更加准确,预测效果更好。
步骤S120、根据任意两个待预测节点的三元闭包采样节点数,计算 所述任意两个待预测节点的拼接权重;
根据前述的拼接权重和节点嵌入,得到任意两个待预测节点间生成 的边嵌入;
其中,利用下述公式计算两个节点的拼接权重,
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的采样节点中三元闭包节 点数;
利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j 的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
步骤S130、利用全连接神经网络将边嵌入转化为二分类任务,根据 二分类任务结果预测任意两个节点之间是否存在链接;包括:
将所述边嵌入输入到全连接神经网络,将边嵌入降维成二维,得到 二维的边嵌入表示;
将二维的边嵌入表示经过softmax激活函数,得到最终的预测分数; 若预测分数大于0.5,则预测为两个节点间存在链接。
特殊的,本实施例采用的全连接神经网络,输入维度为128维,只 有一个隐藏层,隐藏层的神经元数量为输入向量维度的一半,为了整个 网络训练过程的稳定性,输入层与隐藏层之后都包括一个batch normalization层,并使用Relu作为激活函数;输出层神经元数量为2, 由此将边嵌入降维成二维,得到二维的边嵌入表示;输出层使用SoftMax 作为激活函数,得到最终的预测分数;若预测分数大于0.5,则预测为两 个节点间存在链接。
需要说明的是,在通过两个节点嵌入的加权求和来生成边嵌入的过 程中;权重分配是基于每个节点的三元闭包邻居数,其中三元闭包邻居 越多分配的权重越高,通过这种方式获得的边嵌入,可以更好地保留节 点的局部结构信息;另外,对网络中任意两个节点间的边嵌入进行预测, 历遍整个网络后,即可预测出给定的社交网络中所有可能的链接。本发 明的基于三元闭包图嵌入的社交网络链路预测方法能够更好的保留局部 和全局信息,进一步提升链路预测的效果,解决了传统的边嵌入方法难 以保留丰富的局部结构信息的问题。
实施例二:
本发明还提供一种基于三元闭包图嵌入的社交网络链路预测系统, 如图2所示,包括:节点嵌入计算模块210,边嵌入计算模块220,链路 预测模块230。
系统中,节点嵌入计算模块210,用于根据社交网络中的三元闭包结 构计算每个节点的节点嵌入;包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其采样得 到的节点分为两种类型,即三元闭包节点和非三元闭包节点;
为每种类型的节点分配不同的聚合权重;
根据每个采样节点的聚合权重,计算每个节点的节点嵌入表示;
将每个节点的所述节点嵌入表示输入多通道单层神经网络,完成节 点嵌入的特征映射,得到网络中所有节点的节点嵌入。
其中,为每种类型的节点分配不同的聚合权重包括:
三元闭包节点的聚合权重设为1;
利用下述公式计算每个节点的节点嵌入表示:
其中,G表示社交网络中所有节点集合,T表示三元闭包采样节点集 合,N表示采样节点的数量,li表示节点i的采样节点中三元闭包节点数。
最后使用多通道单层神经网络进行降维,得到最终的节点嵌入。
系统中,边嵌入计算模块220,与所述节点嵌入计算模块210相连, 用于根据待预测节点的三元闭包采样节点数,计算两个节点间的拼接权 重;根据所述拼接权重计算两节点间生成的边嵌入。
特殊的,利用下述公式计算两个节点的拼接权重,
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的采样节点中三元闭包节 点数。
进一步的,利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j 的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
系统中,链路预测选取模块230,与边嵌入计算模块220相连;利用 全连接神经网络将边嵌入转化为二分类任务,根据二分类任务结果预测 节点之间是否存在链接;
具体的,将边嵌入输入到全连接神经网络,将边嵌入降维成二维, 得到二维的边嵌入表示;
将二维的边嵌入表示经过softmax激活函数,得到最终的预测分数; 若预测分数大于0.5,则预测为两个节点间存在链接。
本发明首先对于给定的社交网络,根据三元闭包结构划分不同的节 点类型,从而计算得到每个节点的节点嵌入,该结果反应了初始情况下 的节点能够保留全局结构信息,由此得到的节点嵌入更符合社交网络的 传播规律。其次,基于两节点的节点嵌入和节点周围的三元闭包结构, 计算节点间边的嵌入;该结果反应了边嵌入能够保留形成边的两端节点 的局部信息。最后,通过一全连接神经网络将边嵌入转化成二分类问题, 预测边是否存在。本发明的基于三元闭包图嵌入的社交网络链路预测方 法能够更好的保留局部和全局信息,进一步提升链路预测的效果。
实施例三:
作为一个具体的实施例,以一个简单的网络示意图为例,用以说明 本发明基于三元闭包图嵌入的社交网络链路预测方法的具体实现方法, 网络示意图的拓扑结构如图3所示。
本实施例包括以下具体步骤:
1)根据给定的网络,按照本发明实施例一所述的方法得出采样的三 元闭包节点和非三元闭包节点如表1和表2所示。
表1:节点i采样分类结果
节点 | 节点类型 | 节点 | 节点类型 | 节点 | 节点类型 |
i | 1 | 3 | 1 | 6 | 0 |
1 | 1 | 4 | 0 | 7 | 0 |
2 | 0 | 5 | 0 | 8 | 0 |
表2:节点j采样分类结果
表1和表2中的节点类型,1表示为三元闭包节点,0表示非三元 闭包节点。可以看出,节点i的三元闭包采样节点为节点{i,1,3},非 三元闭包采样节点为{2,4,5,6,7,8}。节点j的三元闭包采样节点为 节点{j,1,2,3,6,7},非三元闭包采样节点为{4,5,8}。节点1,2,3,… 表示节点i的邻居节点,节点1,2,3,…表示节点j的邻居节点。
2)根据采样节点信息,根据发明实施例一所述的方法计算出节点的 汇聚权重如表3表4所示。
表3:节点i采样节点的汇聚权重
节点 | 汇聚权重 | 节点 | 汇聚权重 | 节点 | 汇聚权重 |
i | 1 | 3 | 1 | 6 | 2/3 |
1 | 1 | 4 | 2/3 | 7 | 2/3 |
2 | 2/3 | 5 | 2/3 | 8 | 2/3 |
表4:节点j采样节点的汇聚权重
节点 | 汇聚权重 | 节点 | 汇聚权重 | 节点 | 汇聚权重 |
j | 1 | <u>3</u> | 1 | <u>6</u> | 1 |
<u>1</u> | 1 | <u>4</u> | 1/3 | <u>7</u> | 1 |
<u>2</u> | 1 | <u>5</u> | 1/3 | <u>8</u> | 1/3 |
3)根据计算出的汇聚权重,将其邻居节点的信息汇聚到节点i和节 点j,得到节点i和节点j的节点嵌入表示。按照本发明实施例一所述的 方法计算出的节点嵌入表示如表5所示。
表5:节点i,j的嵌入表示
节点 | 嵌入表示 | 节点 | 嵌入表示 |
i | 7 | j | 7 |
4)根据两节点的节点嵌入和节点周围的三元闭包结构,计算得到边 嵌入。按照本发明实施例一所述的方法计算出的边嵌入的拼接权重如表6 所示。
表6:节点i,j的拼接权重
节点 | 拼接权重 | 节点 | 拼接权重 |
i | 4/7 | j | 10/7 |
因此,可以得出边eij的嵌入表示为14
5)将边eij的嵌入表示输入一全连接神经网络,把链接预测问题转化 为二分类任务,以此来预测两个节点之间是否存在链接。边eij的嵌入表 示转化成二分类问题后所得到的结果为1,即边eij为预测出的社交网络中 存在的边。
需要说明的是,本实施例中节点i的嵌入表示主要来源于节点i、节 点1和节点3,节点j的嵌入表示主要来源于节点j、节点1、节点2、 节点3、节点6和节点7,这说明节点i,j的信息主要都是来自于三元 闭包节点,这更加符合社交网络中信息传播的规律,能够更好的保留节 点的全局结构信息。在由节点嵌入生成边嵌入的过程中,两节点由于拥 有不同的三元闭包邻居数,因此对于边的形成的贡献是不同的,节点j 的三元闭包邻居较多,因此对于边的形成的贡献较大。这一措施能够很 好的保留形成边的两节点的局部结构信息,使得预测得到的结果更加准 确。
实施例四:
本实施例以八个真实网络为例,将本发明提供的所述基于三元闭 包图嵌入的社交网络链路预测方法用于上述网络的链路预测,并与其 他典型社交网络链路预测方法进行比较,选取的典型方法包括: DeepWalk、GCN、GAT、GraphSAGE、DeepEdge、CensNet和 SEAL等链路预测方法。选取的评估标准包括:接收器工作特性曲线 下面积(AUC)、准确度(ACC)和精度(PRE);
AUC曲线描述了在各种阈值设置下,真阳性率(TPR)与假阳性 率(FPR)的比例。真阳性率(TPR)和假阳性率(FPR)可以通过以下 公式进行评估;
其中,FN:False Negative,被判定为负样本,但事实上是正样本。
FP:False Positive,被判定为正样本,但事实上是负样本。
TN:True Negative,被判定为负样本,事实上也是负样本。
TP:True Positive,被判定为正样本,事实上也是正样本。
本实施例所应用到的八个真实网络分别为:
1)US-Air是美国航空网络图。
2)BN是生物视网膜网络图。
3)Blog是美国政治博客图。
4)Hamster是hamsterster.com网站上的用户关系图。
5)Biology属于生物网络的范畴。
6)Yeast是酵母蛋白质之间的交互式网络图。
7)Facebook为美国社交平台Facebook上的网络图。
8)Wing是鸟翼架构上的网络图。
各个网络的详细参数见表7。
表7:真实网络的具体参数
网络 | N | E |
US-Air | 332 | 2126 |
BN | 1123 | 90811 |
Blog | 1222 | 16714 |
Hamster | 1858 | 12534 |
Biology | 1871 | 47754 |
Yeast | 2375 | 11693 |
4039 | 88234 | |
Wing | 10937 | 75488 |
其中,N和E分别表示网络中的节点总数和存在连边总数。
表8:不同的链接预测方法在真实网络中的效果
上述表8中,TRI为本发明提出的链路预测方法;基于PRE、ACC和 AUC三种评价指标,将该方法与其他七种基线方法在八个网络上进行比较, 得出本发明的TRI链路预测方法在几乎所有网络上都取得了最好的结果。
本发明解决了现有方法无法以高节点聚合效率很好地保留全局结构 信息的问题。利用社交网络的三元闭包结构将采样节点分为三元闭包节 点和非三元闭包节点,并为它们分配不同的聚合权重。较大的权重将分 配给三元闭包节点,因为它们更有影响力。不同的聚合权重使得中心节 点的嵌入偏向三元闭包节点,这符合社交网络中信息传播的规律。此外, 本发明解决了传统边嵌入方法难以保留丰富的局部结构信息的问题。提 出了一种通过两个端节点嵌入的加权求和来生成边嵌入的新方法。权重 基于每个节点的三元邻居数,其中三元邻居越多意味着节点的重要性越 高,因此权重越高。通过节点嵌入的加权求和获得边嵌入,可以更好地 保留节点的局部结构信息两端节点;故本发明的基于三元闭包图嵌入的 社交网络链路预测方法能够更好的保留节点的局部和全局信息,进一步 提升链路预测的效果。
综上所述,本实施例公开的基于三元闭包图嵌入的社交网络链路预 测方法及系统,与其他典型的社交网络链路预测方法相比,对于不同的 网络,都可以取得非常好的效果。
本发明充分利用社交网络中的三元闭包信息结构,并考虑到节点间 不同的汇聚权重和拼接权重,采用节点嵌入加权求和的方法确保社交网 络链路预测的准确性。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程, 可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计 算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、 只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围 并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范 围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于三元闭包图嵌入的社交网络链路预测方法,其特征在于,包括以下步骤:
对于给定的社交网络,根据采样节点的三元闭包结构,计算每个节点的节点嵌入;其中,所述采样节点包括该节点及其邻居节点;
在社交网络中任取两个节点作为待预测节点,根据每个所述待预测节点的三元闭包采样节点数,计算所述两个待预测节点的拼接权重;
根据所述拼接权重和节点嵌入,得到所述两个待预测节点间生成的边嵌入;
利用全连接神经网络将边嵌入转化为二分类任务,根据二分类任务结果预测任意两个节点之间是否存在链接。
2.根据权利要求1所述的链路预测方法,其特征在于,所述根据采样节点的三元闭包结构,计算每个节点的节点嵌入,包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其对应的采样节点分为三元闭包节点和非三元闭包节点两种类型;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的初始节点嵌入表示;
将每个节点的所述初始节点嵌入表示输入多通道单层神经网络,完成节点嵌入的特征映射,得到网络中所有节点的节点嵌入。
6.根据权利要求1所述的链路预测方法,其特征在于,利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
7.根据权利要求1所述的链路预测方法,其特征在于,所述根据二分类任务结果预测两个节点之间是否存在链接,包括:
将所述边嵌入输入到全连接神经网络,将边嵌入降维成二维,得到二维的边嵌入表示;
将二维的边嵌入表示经过softmax激活函数,得到最终的预测分数;
若预测分数大于0.5,则预测为两个节点间存在链接。
8.一种基于三元闭包图嵌入的社交网络链路预测系统,其特征在于,包括:
节点嵌入计算模块,用于根据社交网络中的三元闭包结构计算每个节点的节点嵌入;
边嵌入计算模块,与所述节点嵌入计算模块相连,用于根据待预测节点的三元闭包采样节点数,计算两个节点间的拼接权重;根据所述拼接权重计算两节点间生成的边嵌入;
链路预测模块,与所述边嵌入计算模块相连,利用全连接神经网络将所述边嵌入转化为二分类任务,根据所述二分类任务结果预测节点之间是否存在链接。
9.根据权利要求8所述的链路预测系统,其特征在于,所述节点嵌入计算模块,用于计算每个节点的节点嵌入,还包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其采样得到的节点分为两种类型,即三元闭包节点和非三元闭包节点;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的节点嵌入表示;
将所述节点嵌入表示输入多通道单层神经网络,完成节点嵌入的特征映射,得到网站中所有节点的节点嵌入。
10.根据权利要求8或9所述的链路预测系统,其特征在于,包括:
根据下述公式计算网络中每个节点的节点嵌入:
其中,G表示社交网络中所有节点集合,T表示三元闭包采样节点集合,N表示采样节点的数量,li表示节点i的采样节点中三元闭包节点数;
利用下述公式计算两个节点的拼接权重:
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的三元闭包采样节点数;
利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd];
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210181966.4A CN114529096A (zh) | 2022-02-25 | 2022-02-25 | 基于三元闭包图嵌入的社交网络链路预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210181966.4A CN114529096A (zh) | 2022-02-25 | 2022-02-25 | 基于三元闭包图嵌入的社交网络链路预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114529096A true CN114529096A (zh) | 2022-05-24 |
Family
ID=81624481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210181966.4A Pending CN114529096A (zh) | 2022-02-25 | 2022-02-25 | 基于三元闭包图嵌入的社交网络链路预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529096A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
-
2022
- 2022-02-25 CN CN202210181966.4A patent/CN114529096A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
CN116680633B (zh) * | 2023-05-06 | 2024-01-26 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN111126674B (zh) | 基于深度模型的传播预测方法及其系统 | |
CN112906770A (zh) | 一种基于跨模态融合的深度聚类方法及系统 | |
CN109142946A (zh) | 基于蚁群算法优化随机森林的变压器故障检测方法 | |
CN110097095B (zh) | 一种基于多视图生成对抗网络的零样本分类方法 | |
CN110837602A (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
CN110889450B (zh) | 超参数调优、模型构建方法和装置 | |
CN112784031B (zh) | 一种基于小样本学习的客服对话文本的分类方法和系统 | |
CN112580902B (zh) | 对象数据处理方法、装置、计算机设备和存储介质 | |
CN109686402A (zh) | 基于动态加权相互作用网络中关键蛋白质识别方法 | |
CN112733035A (zh) | 基于知识图谱的知识点推荐方法、装置、存储介质及电子装置 | |
CN109948242A (zh) | 基于特征哈希的网络表示学习方法 | |
CN113297429A (zh) | 一种基于神经网络架构搜索的社交网络链路预测方法 | |
CN110830291B (zh) | 一种基于元路径的异质信息网络的节点分类方法 | |
CN112258250A (zh) | 基于网络热点的目标用户识别方法、装置和计算机设备 | |
CN115358809A (zh) | 一种基于图对比学习的多意图推荐方法及装置 | |
CN115309906A (zh) | 一种基于知识图谱技术的数据智能分类技术 | |
CN115858919A (zh) | 基于项目领域知识和用户评论的学习资源推荐方法及系统 | |
CN116662564A (zh) | 一种基于深度矩阵分解与知识图谱的服务推荐方法 | |
CN114529096A (zh) | 基于三元闭包图嵌入的社交网络链路预测方法及系统 | |
CN106911512B (zh) | 在可交换图中基于博弈的链接预测方法及系统 | |
CN111369124A (zh) | 一种基于自生成全局特征和注意力的图像美学预测方法 | |
CN116452241A (zh) | 一种基于多模态融合神经网络的用户流失概率计算方法 | |
CN114265954B (zh) | 基于位置与结构信息的图表示学习方法 | |
CN115601745A (zh) | 一种面向应用端的多视图三维物体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |