CN109583494A - 基于结构子图特征的动态网络链接的特征提取及预测方法 - Google Patents
基于结构子图特征的动态网络链接的特征提取及预测方法 Download PDFInfo
- Publication number
- CN109583494A CN109583494A CN201811430850.XA CN201811430850A CN109583494A CN 109583494 A CN109583494 A CN 109583494A CN 201811430850 A CN201811430850 A CN 201811430850A CN 109583494 A CN109583494 A CN 109583494A
- Authority
- CN
- China
- Prior art keywords
- subgraph
- link
- structure subgraph
- sub
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于结构子图特征的动态网络链接的特征提取及预测方法,通过归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图,根据所述结构子图需要包含的结构点个数,确定所述结构子图的规模,将结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量,最后训练神经网络来预测待预测链接形成的概率;本发明提取的结构子图特征量能够比传统特征量更广泛多样地表达链接的拓扑特征,本发明的链接预测方法能够较大程度上提高链接预测的准确性。
Description
技术领域
本发明属于网络挖掘领域,涉及一种基于结构子图特征的动态网络链接的特征提取方法及预测方法。
背景技术
人类进入21世纪以来,随着网络和信息技术的飞速发展,人们的日常生活与大量复杂多样的网络息息相关,如社交网络、通信网络、交通网络、购物网络等。这些网络有着明显的时序特性,被称为动态网络。作为动态网络中热门研究之一,链接预测旨在根据网络中已知的节点属性和结构等信息来预测网络中两个节点之间产生链接的可能性。链接预测研究有着丰富的实际应用,为社交网络和电商个性化推荐,网络图谱缺失链接补全,用户行为预测等众多领域提供核心技术支持。链接预测问题的核心是对网络中的链接进行有效的特征表达。链接在动态网络中具备怎样的拓扑特征,是区分该链接是否可能存在或者形成的关键因素。链接的拓扑特征被表达在特征量中,然后输入非监督或者监督模型中去判断该链接是否会存在或产生。多数非监督的链接预测方法利用的拓扑特征基于链接端点的公共邻居数量,如公共邻居,资源分配指数和Jaccard指数等。其他有监督的链接预测方法则通过预定义的路径来学习链接端点的可达性特征或者该链接的潜在特征表达。
动态网络种类丰富,大多具备不太相同的网络特征,使得不同动态网络中的链接通常有着不同的拓扑特征。目前上述方法对于动态网络中链接的拓扑特征的挖掘和表达都非常有限。这主要表现在:①仅利用小范围的拓扑特征,导致在稀疏网络下,特征量具备的信息量不足。②仅利用少量种类的拓扑特征,导致特征量适用性有限。另外,传统的基于神经网络的链接预测无法满足不同动态网络下实际应用的需求,传统神经网络的链接预测在多变动态网络环境中也不够准确。
发明内容
本发明为解决上述问题,提出了一种基于结构子图特征的动态网络链接的特征提取及预测方法。本发明的网络拓扑结构合并方法使得特征量能够高效的利用和表达大范围且多样的链接拓扑特征,另外,利用神经网络的强大的学习能力,使其能够有效地学习到这些拓扑特征的模式规律,从而显著提高链接预测的效果。
根据本发明的一个方面,提供一种基于结构子图特征的动态网络链接的特征提取方法,包括:
步骤1,归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图;
步骤2,根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模,得到K结构子图;
步骤3,将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量。
其中,步骤1所述的归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图包括:
对于一个动态网络G=(V,E,L)的目标链接et=(ni,nj,lt);获取以目标链接为中心的h跳范围内的子网络,记作h跳子图归并所述子图中所有邻居相同的点,将子图中邻居相同的点归并成一个结构点,记作两个结构点和存在结构链接得到归并后的h跳子图定义h跳结构子图
其中et∈E,E为所有边的集合,L为所有时间戳的集合,V为网络中所有节点的集合,ni和nj均为V中的点,lt、lk为L中的时间戳,h为大于等于1的自然数,VS为所有结构点的集合,ES为所有结构链接的集合,L′为所述结构子图中存在的所有时间戳。
根据本发明的一个方面,提供一种基于结构子图特征的动态网络链接的预测方法,包括:
步骤1,归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图;
步骤2,根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模得到K结构子图;
步骤3,将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量,将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1-3,提取结构子图特征向量;
步骤4,利用训练集合训练神经网络,使用训练完成的神经网络来预测测试集合中待预测链接形成的概率。
其中,步骤4利用训练集合训练神经网络,使用训练完成的神经网络来预测测试集合中待预测链接形成的概率包括:
步骤4-1,将训练集合中等量的在T时刻存在的正类链接和在T时刻不存在的负类链接的结构子图特征向量作为训练数据,输入到一个包含3层全连接隐层的神经网络,3层隐层分别有32,32和16个神经元,最后一层由softmax函数完成二分类的输出;
步骤4-2,利用反向传播法训练神经网络;
步骤4-3,将测试集合中待预测链接的结构子图特征向量输入到训练完成的神经网络中,得到所述链接形成的概率,若该概率大于等于0.5,则认为所述链接将会形成,反之则不会形成。
根据本发明的一个方面,提供一种基于结构子图特征的动态网络链接的预测方法,包括:
步骤1,归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图;
步骤2,根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模得到K结构子图;
步骤3,将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量,将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1-3,提取结构子图特征向量;
步骤4,利用训练集合训练线性回归模型,使用训练完成的线性回归模型来预测测试集合中待预测链接形成的概率。
本发明的有益效果在于,提出的一种基于网络拓扑结构归并的链接特征量,有效地捕捉链接周围网络的拓扑信息,并包含多种(包含公共邻居,优先连接,Jaccard指数等)拓扑特征。在网络拓扑结构合并的过程中,由于具备相同拓扑特征的点被合并成结构点,使结构子图有着非常高效的拓扑信息表达效果。结构子图去除了原网络中可能存在的过多相同拓扑结构的冗余信息,使其可以用较小的尺度表达更多的网络拓扑信息。同时结构子图特征量将结构子图中的拓扑信息和链接的时间戳信息完全地编码入其特征值中,最大限度的保存了原始网络的拓扑信息,为链接预测的优秀效果提供了根本依据。最后本发明利用神经网络构建分类模型来判别链接是否可能形成,得益于神经网络对特征量中潜在模式的强大学习能力,神经网络有效地学习到结构子图特征中的链接拓扑结构的潜在模式,得到优秀的链接预测效果。
附图说明
图1是本发明实施例中提供的一种基于结构子图特征的动态网络链接的特征提取方法流程图;
图2是本发明实施例中使用的动态网络的抽象模型;
图3是本发明实施例中从子图归并得到结构子图过程示意图;
图4是本发明实施例中从结构子图获得链接结构子图特征量过程示意图;
图5是本发明实施例中提供的一种基于结构子图特征的动态网络链接的预测方法流程图;
图6是本发明实施例中提供的一种基于结构子图特征的动态网络链接的预测方法中链接特征量提取过程示意图;
图7是本发明实施例中提供的一种基于结构子图特征的神经网络分类预测方法(SSFNM)在各个主要数据集上与传统链接预测方法的曲线下面积AUC值和精度与召回率的权衡值F1对比图;
图8是本发明实施例中提供的一种基于结构子图特征的神经网络分类预测方法(SSFNM)在不同参数K设定下的曲线下面积AUC值对比图;
图9是本发明实施例中提供的一种基于结构子图特征的神经网络分类预测方法(SSFNM)在不同参数K设定下的精度与召回率的权衡值F1对比图。
具体实施方式
下面本发明具体的实施方式进行阐述,来进一步说明本发明的出发点以及相应的技术方案。
图1是本发明实施例提供的一种基于结构子图特征的动态网络链接的特征提取方法流程图。所述方法包括三个步骤:
步骤1,归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图。
优选的,步骤1所述的归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图包括:
对于一个动态网络G=(V,E,L)的目标链接et=(ni,nj,lt);获取以目标链接为中心的h跳范围内的子网络,记作h跳子图归并所述子图中所有邻居相同的点,将子图中邻居相同的点归并成一个结构点,记作两个结构点和存在结构链接得到归并后的h跳子图定义h跳结构子图
其中et∈E,E为所有边的集合,L为所有时间戳的集合,V为网络中所有节点的集合,ni和nj均为V中的点,lt、lk为L中的时间戳,h为大于等于1的自然数,VS为所有结构点的集合,ES为所有结构链接的集合,L′为所述结构子图中存在的所有时间戳。
如图2所示为本发明实施例中使用的动态网络的抽象模型,对于一个动态网络G=(V,E,L),其中的V为网络中所有节点的集合,E为所有边的集合,L为所有时间戳的集合。动态网络G中的一条链接ek∈E被定义为ek=(ni,nj,lk),其中ni和nj均为V中的点,lk为L中的时间戳。对于一个需要获取其结构子图特征的目标链接et,以它为中心的一定大小范围的网络称为子网络(下称子图)。如果子图中的所有点都距离et一跳及以内的位置,则该网络称为链接et的一跳子图,记作同理,链接et的两跳子图为其中的所有点都距离链接et两跳及以内的位置。
先对进行拓扑的归并,即归并其中具备相同拓扑结构的点。图3是本发明实施例中从子图归并得到结构子图过程示意图,展示了链接A-B的一跳子图归并为一跳结构子图的过程。如果子图中的两点具有相同的邻居,那么这两个点在该子图中具有相同的拓扑的结构。由于相同拓扑结构的点在网络结构中表达的拓扑信息是相同的,所以将它们归并成一个点并不会增加或删除整个子图所表达的拓扑信息。子图中所有邻居相同的点都会被归并成一个点,被称为结构点,如果子图中的一个点没有任何其他点与它具备相同的邻居,那么该点自身成为一个结构点。为了避免目标链接et的两端点被归并,导致et消失,链接et的两端点单独成为两个结构点。此外,原子图中的点之间链接也变成了结构点之间的链接,即结构链接εk。归并后的一跳子图被定义为一跳结构子图其中VS为所有结构点的结合,ES为所有结构链接的集合,L′为该结构子图中存在的所有时间戳。显然一跳结构子图是一跳子图的等效表达。
将链接的子图按照相同的拓扑结构归并成链接的结构子图是本发明的关键。因为大量归并了相同拓扑结构相同的点,结构子图可以远小于子图的大小,表达等量的拓扑信息,这为结构子图特征量的高效性奠定了基础。
步骤2,根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模,得到K结构子图。
在不同的跳数下,链接et都会得到不同大小的子图,从而会获得不同的结构子图,同时得到的结构子图的大小也不同。如何确定满足需求的结构子图的大小是需要解决的关键问题。
结构子图中的不同的结构点代表着链接et周围不同的拓扑结构,结构子图中结构点的数量越多,结构子图所蕴含的拓扑信息也就越多。假设实际应用中用户可以自定义结构子图需要包含K个结构点,|VS|代表结构子图中结构点的数量,那么满足|VS|≥K的结构子图即为满足需求的结构子图。
优选的,步骤2根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模,得到K结构子图包括:
步骤2-1,将跳数h初始设定为1;
步骤2-2,取距离链接et在h跳范围之内的所有点及其之间的链接,获得子图
步骤2-3,根据步骤1获得归并后的结构子图
步骤2-4,判断结构子图中的结构点的数量是否满足|VS|≥K,如果满足则执行步骤2-5,否者将h增大1,并返回步骤2-2;
步骤2-5,执行Palette-WL算法为结构子图中的每个结构点标注上独一的序号;
步骤2-6,舍去结构子图中序号大于K的结构点,剩下的部分保留为K结构子图,记作
其中|VS|为结构子图中实际包含的结构点个数;为K结构子图中所有结构点的集合,为K结构子图中所有结构链接的集合,L′为K结构子图中存在的所有时间戳。
其中值得注意的是,随着h的增大,链接的子图将会逐渐扩大至整个网络。如果在将整个网络视为链接et的子图的情况下,获得的结构子图仍无法满足|VS|≥K,则在结构子图中补充K-|VS|个不与任何结构点相连接的假点。
在执行步骤2-5的过程中,利用了Palette-WL算法来给结构子图中的结构点进行标号。结构点的标号会影响哪些点会被保留到K结构子图中,也影响着哪些拓扑信息会被编码入结构子图特征中。Palette-WL算法会保证距离链接et越近的点,得到的标号越小。链接et的两端点会总会得到1号和2号标号。Palette-WL算法使中的结构点都是距离链接et最近的K个结构点,这些K个点也可以被看做是影响链接et最显著的结构点,对于确定链接et的拓扑特征起到至关重要的作用,保证了子图结构特征能够合理地表达拓扑特征,并有效地用来预测链接et是否存在或可能形成。
步骤3,将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量。
图4是本发明实施例中从结构子图获得链接结构子图特征量过程示意图,给出了链接A-B获得其结构子图特征量的过程。K结构子图中保留着K个结构点,这些结构点之间的链接,以及这些链接的时间戳。在本步骤中,将K结构子图中蕴含的这些拓扑信息编码成结构子图特征。
由于动态网络中自然存在的多链接情况,以及子网中点的归并的结果,K结构子图中的结构链接其实是诸多链接的集合。根据相同拓扑结构的点对目标链接et的形成产生的效果是相同的,结构链接作为链接两个结构点的链接的集合,结构链接中的链接的影响力是可以叠加的。本发明提出将结构链接中的链接规范化成一条链接的影响力,作为该结构链接对目标链接et的形成产生的作用的定量表达。现有研究表明,动态网络中的链接由于存在着时间的先后顺序,对未来时刻链接的形成产生的作用的力度是不同的,该作用可看做是服从随着时间间隔的递增呈指数型下降的衰退函数。
优选的,步骤3所述将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量包括:
计算链接e=(ni,nj,ls)在当前时刻lt所产生的影响力为:
其中ni和nj均为节点集合V中的点,ls为链接e的时间戳,θ为取值0到1的衰退系数,越大的θ会导致影响力衰退的更快,可取0.5获得较为平均的效果;
规范K结构子图中的结构链接为其中 为中任一点,为中任一点,
规范K结构子图中所有的结构链接,得到规范化的K结构子图由于规范化过程不影响结构点,因此规范化的K结构子图中所有结构点的集合 为所有规范化后的K结构子图中结构链接的集合,则是所有规范化影响力的集合;
计算规范化结构子图的邻接矩阵A的规范化影响力,具体地,A的第m行第n列的元素值为:
其中A(m,n)为链接的规范化影响力,当且仅当的标号为m,且的标号为n,由于目标链接et两端点总会被标记为1号和2号,且目标链接et是未知的,因此A(1,2)=A(2,1)=0;
将邻接矩阵A的右上角按列展开,得到链接et的结构子图特征向量为:3≤n<K,1≤m<n,其中m为邻接矩阵A的行,n为邻接矩阵A的列,K为K结构子图的结构点个数,conn(*)是一个连接函数,连接其中的元素成为向量。
图5是本发明实施例提供的一种基于结构子图特征的动态网络链接的预测方法的流程图。所述方法包括四个步骤:
步骤1,归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图。
优选的,步骤1所述的归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图包括:
对于一个动态网络G=(V,E,L)的目标链接et=(ni,nj,lt);获取以目标链接为中心的h跳范围内的子网络,记作h跳子图归并所述子图中所有邻居相同的点,将子图中邻居相同的点归并成一个结构点,记作两个结构点和存在结构链接得到归并后的h跳子图定义h跳结构子图
其中et∈E,E为所有边的集合,L为所有时间戳的集合,V为网络中所有节点的集合,ni和nj均为V中的点,lt、lk为L中的时间戳,h为大于等于1的自然数,VS为所有结构点的集合,ES为所有结构链接的集合,L′为所述结构子图中存在的所有时间戳。
步骤2,根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模得到K结构子图。
优选的,步骤2根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模得到K结构子图包括:
步骤2-1,将跳数h初始设定为1;
步骤2-2,取距离链接et在h跳范围之内的所有点及其之间的链接,获得子图
步骤2-3,根据步骤1获得归并后的结构子图
步骤2-4,判断结构子图中的结构点的数量是否满足|VS|≥K,如果满足则执行步骤2-5,否者将h增大1,并返回步骤2-2;
步骤2-5,执行Palette-WL算法为结构子图中的每个结构点标注上独一的序号;
步骤2-6,舍去结构子图中序号大于K的结构点,剩下的部分保留为K结构子图,记作
其中|VS|为结构子图中实际包含的结构点个数;为K结构子图中所有结构点的集合,为K结构子图中所有结构链接的集合,L′为K结构子图中存在的所有时间戳。
步骤3,将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量,将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1-3,提取结构子图特征向量。
优选的,在本发明的一个实施例中步骤3包括:
计算链接e=(ni,nj,ls)在当前时刻lt所产生的影响力为:
其中ni和nj均为节点集合V中的点,ls为链接e的时间戳,θ为取值0到1的衰退系数;
规范K结构子图中的结构链接为其中 为表示中任一点,为表示中任一点,
规范K结构子图中所有的结构链接,得到规范化的K结构子图其中为规范化的K结构子图中所有结构点的集合,为规范化的K结构子图中所有结构链接的集合,为规范化的K结构子图中存在的所有时间戳;
计算规范化结构子图的邻接矩阵A的规范化影响力,A的第m行第n列的元素值为:
其中A(m,n)为链接的规范化影响力,当且仅当的标号为m,且的标号为n;
将邻接矩阵A的右上角按列展开,得到链接et的结构子图特征向量为:3≤n<K,1≤m<n,其中m为邻接矩阵A的行,n为邻接矩阵A的列,K为K结构子图的结构点个数,conn(*)是一个连接函数,连接其中的元素成为向量。
将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1-3,提取结构子图特征向量。
图6是本发明实施例中提供的一种基于结构子图特征的动态网络链接的预测方法中链接特征量提取过程示意图。对于每条链接,无论是否实际存在,首先获取其一跳子图,通过归并其中具备相同拓扑结构的点,得到一跳结构子图,随后判断一跳结构子图是否包含至少K个结构点。如果不满足,则将获取二跳子图,重复上述步骤知道满足。通过PWL算法为满足条件的结构子图标号,并提取前K个结构点构成K结构子图,最后通过影响力规范化即可获得一个向量此向量即为该链接的结构子图特征,其中蕴含着丰富的链接周围的拓扑信息。通过直接展开邻接矩阵A的特征量编码的方式使结构子图特征量能够尽可能的捕捉链接的拓扑特征,同时使其能够比传统特征量包含更多种的拓扑特征。此外子图特征量不局限于一跳以内的拓扑结构,可根据需求K,自适应地引入一定跳数的拓扑结构,从而达到满足需求的拓扑信息的量。最后将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1到步骤3,提取所有链接的结构子图特征向量。
步骤4,将所述结构子图特征向量作为训练集合训练神经网络,使用训练完成的神经网络来预测待预测链接形成的概率。
优选的,作为一种可以实现的方式,步骤4的神经网络为神经网络分类模型,因此本发明实施例提供的一种基于结构子图特征的动态网络链接的预测方法是一种基于结构子图特征的神经网络分类预测方法,该预测方法简称为SSFNM预测方法,步骤4的基于神经网络分类模型的预测方法具体步骤包括:
步骤4-1,将训练集合中等量的在T时刻存在的正类链接和在T时刻不存在的负类链接的结构子图特征向量作为训练数据,输入到一个包含3层全连接隐层的神经网络,3层隐层分别有32,32和16个神经元,最后一层由softmax函数完成二分类的输出;
步骤4-2,利用反向传播法训练神经网络;
步骤4-3,将测试集合中待预测链接的结构子图特征向量输入到训练完成的神经网络中,得到所述链接形成的概率,若该概率大于等于0.5,则认为所述链接将会形成,反之则不会形成。
为了体现本发明中提出的结构子图特征也适用于其他链接预测模型,作为另一种可以实现的方式,本发明另外构造了一个利用结构子图特征的线性回归模型来进行链接预测,即SSFLR。该模型首先对用于训练的结构子图特征量进行回归,学习到其中的参数。将待预测链接的结构子图特征输入SSFLR中,即可得到该链接形成的概率。具体的,本发明实施例中提供的一种基于结构子图特征的线性回归模型的预测方法,包括:
步骤1,归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图;
步骤2,根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模得到K结构子图;
步骤3,将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量,将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1-3,提取结构子图特征向量;
步骤4,利用训练集合训练线性回归模型,使用训练完成的线性回归模型来预测测试集合中待预测链接形成的概率。
下面通过在诸多的实际网络上的链接预测实验表明本发明提出的基于结构子图特征的链接提取方法和链接预测方法,能更有效地捕捉链接周围网络的拓扑信息,能够较大程度上提高链接预测的准确性。由于链接预测问题被考虑成了链接的分类问题,即将未知链接分为两个类:形成(为正类,标签为0)和不形成(为负类,标签为1)。链接被分类的越准确即表明链接预测的越准确。因此用来衡量分类好坏的指标曲线下面积AUC(Area UnderCurve)和精度和召回率的权衡F1分数可被作为评价链接预测效果的指标。
其中n0代表结果中正类的个数,n1代表负类的个数。S0=∑ri,其中ri代表第i个正类在排序中的名次。
F1分数的值是由精度和召回率确定的。精度代表的是预测正类结果中正确预测正类的概率,反映的是模型预测正确链接的准确率。具体定义如下:
其中np为模型预测出的正类的个数,np0为np中实际正类的个数。
召回率代表的是要预测存在的链接被正确预测出来的概率,反映了预测模型预测出存在链接的能力。具体定义如下:
F1分数是精度和召回率的权衡,定义如下:
对于给定分类器,如果分类越准确,则预测越准确,AUC和F1就越高。
图7是本发明实施例中提供的一种基于结构子图特征的神经网络分类预测方法(SSFNM)在各个主要数据集上与传统链接预测方法的曲线下面积AUC值和精度与召回率的权衡值F1对比图。图7中SSFNM-W和SSFLR-W为本发明中的结构子图特征向量在不考虑动态网络时间戳信息的情况下,分别利用神经网络模型和线性回归模型的链接预测方法,除了SSFNM,SSFLR,SSFNM-W和SSFLR-W,其他方法均为链接预测常用的方法。图7采用了7个实际动态网络数据集,分别为Eu-email,Contact,Facebook,Co-author,Prosper,Slashdot和Digg。这些数据集都具有不同的网络拓扑特点,可以较好的衡量这些算法的适用性。在对比实验中设定SSFNM和SSFLR中的K值均为10。实验结果如图7所示,大多数最高的AUC和F1值均落在基于结构子图的链接预测方法SSFLR和SSFNM上,表明了本发明提出的基于结构子图特征量的链接预测方法的先进性。此外,SSFNM在7个动态网络数据集上均有着较为稳定的优秀表现,因此也说明了本发明结构子图特征量能够适应不同动态网络多变的拓扑特点,有效地利用其中的拓扑特征。此外,SSFNM优于SSFNM-W的结果表明了本发明中的影响力归一化过程有效地反映了动态网络中时间戳信息带来的影响。
为了进一步研究参数K对于本发明提供的链接预测方法的影响,图8和图9分别给出了在不同K值情况下SSFNM链接预测方法的AUC和F1分数情况。图8和图9的横坐标均为K值,纵坐标分别为AUC值和F1值。由图8和图9可知,在多数数据集上SSFNM将会在K=5或K=10时达到最大值,这说明在实际应用中不会耗费巨大的计算量即可保证结构子图特征的有效性,并得到较为优秀的链接预测结果。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (10)
1.一种基于结构子图特征的动态网络链接的特征提取方法,其特征在于,包括:
步骤1,归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图;
步骤2,根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模,得到K结构子图;
步骤3,将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量。
2.根据权利要求1所述的一种基于结构子图特征的动态网络链接的特征提取方法,其特征在于,步骤1所述的归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图包括:
对于一个动态网络G=(V,E,L)的目标链接et=(ni,nj,lt);获取以目标链接为中心的h跳范围内的子网络,记作h跳子图归并所述子图中所有邻居相同的点,将子图中邻居相同的点归并成一个结构点,记作两个结构点和存在结构链接得到归并后的h跳子图定义h跳结构子图
其中et∈E,E为所有边的集合,L为所有时间戳的集合,V为网络中所有节点的集合,ni和nj均为V中的点,lt、lk为L中的时间戳,h为大于等于1的自然数,VS为所有结构点的集合,ES为所有结构链接的集合,L′为所述结构子图中存在的所有时间戳。
3.根据权利要求2所述的一种基于结构子图特征的动态网络链接的特征提取方法,其特征在于,步骤2中所述根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模,得到K结构子图包括:
步骤2-1,将跳数h初始设定为1;
步骤2-2,取距离链接et在h跳范围之内的所有点及其之间的链接,获得子图
步骤2-3,根据步骤1获得归并后的结构子图
步骤2-4,判断结构子图中的结构点的数量是否满足|VS|≥K,如果满足则执行步骤2-5,否者将h增大1,并返回步骤2-2;
步骤2-5,执行Palette-WL算法为结构子图中的每个结构点标注上独一的序号;
步骤2-6,舍去结构子图中序号大于K的结构点,剩下的部分保留为K结构子图,记作
其中|VS|为结构子图中实际包含的结构点个数;为K结构子图中所有结构点的集合,为K结构子图中所有结构链接的集合,L′为K结构子图中存在的所有时间戳。
4.根据权利要求3所述的一种基于结构子图特征的动态网络链接的特征提取方法,其特征在于,步骤3所述将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量包括:
计算链接e=(ni,nj,ls)在当前时刻lt所产生的影响力为:
其中ni和nj均为节点集合V中的点,ls为链接e的时间戳,θ为取值0到1的衰退系数;
规范K结构子图中的结构链接为其中为表示中任一点,为表示中任一点,
规范K结构子图中所有的结构链接,得到规范化的K结构子图其中为规范化的K结构子图中所有结构点的集合,为规范化的K结构子图中所有结构链接的集合,则是所有规范化影响力的集合;
计算规范化结构子图的邻接矩阵A的规范化影响力,A的第m行第n列的元素值为:
其中A(m,n)为链接的规范化影响力,当且仅当的标号为m,且的标号为n;
将邻接矩阵A的右上角按列展开,得到链接et的结构子图特征向量为:
其中m为邻接矩阵A的行,n为邻接矩阵A的列,K为K结构子图的结构点个数,conn(*)是一个连接函数,连接其中的元素成为向量。
5.一种基于结构子图特征的动态网络链接的预测方法,其特征在于,包括:
步骤1,归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图;
步骤2,根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模得到K结构子图;
步骤3,将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量,将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1-3,提取结构子图特征向量;
步骤4,利用训练集合训练神经网络,使用训练完成的神经网络来预测测试集合中待预测链接形成的概率。
6.根据权利要求5所述的一种基于结构子图特征的动态网络链接的预测方法,其特征在于,步骤1所述的归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图包括:
对于一个动态网络G=(V,E,L)的目标链接et=(ni,nj,lt);获取以目标链接为中心的h跳范围内的子网络,记作h跳子图归并所述子图中所有邻居相同的点,将子图中邻居相同的点归并成一个结构点,记作两个结构点和存在结构链接得到归并后的h跳子图定义h跳结构子图
其中et∈E,E为所有边的集合,L为所有时间戳的集合,V为网络中所有节点的集合,ni和nj均为V中的点,lt、lk为L中的时间戳,h为大于等于1的自然数,VS为所有结构点的集合,ES为所有结构链接的集合,L′为所述结构子图中存在的所有时间戳。
7.根据权利要求6所述的一种基于结构子图特征的动态网络链接的预测方法,其特征在于,步骤2所述根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模得到K结构子图包括:
步骤2-1,将跳数h初始设定为1;
步骤2-2,取距离链接et在h跳范围之内的所有点及其之间的链接,获得子图
步骤2-3,根据步骤1获得归并后的结构子图
步骤2-4,判断结构子图中的结构点的数量是否满足|VS|≥K,如果满足则执行步骤2-5,否者将h增大1,并返回步骤2-2;
步骤2-5,执行Palette-WL算法为结构子图中的每个结构点标注上独一的序号;
步骤2-6,舍去结构子图中序号大于K的结构点,剩下的部分保留为K结构子图,记作
其中|VS|为结构子图中实际包含的结构点个数;为K结构子图中所有结构点的集合,为K结构子图中所有结构链接的集合,L′为K结构子图中存在的所有时间戳。
8.根据权利要求7所述的一种基于结构子图特征的动态网络链接的预测方法,其特征在于,步骤3所述将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量,将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1-3,提取结构子图特征向量包括:
计算链接e=(ni,nj,ls)在当前时刻lt所产生的影响力为:
其中ni和nj均为节点集合V中的点,ls为链接e的时间戳,θ为取值0到1的衰退系数;
规范K结构子图中的结构链接为其中为表示中任一点,为表示中任一点,
规范K结构子图中所有的结构链接,得到规范化的K结构子图其中为规范化的K结构子图中所有结构点的集合,为规范化的K结构子图中所有结构链接的集合,则是所有规范化影响力的集合;
计算规范化结构子图的邻接矩阵A的规范化影响力,A的第m行第n列的元素值为:
其中A(m,n)为链接的规范化影响力,当且仅当的标号为m,且的标号为n;
将邻接矩阵A的右上角按列展开,得到链接et的结构子图特征向量为:
其中m为邻接矩阵A的行,n为邻接矩阵A的列,K为K结构子图的结构点个数,conn(*)是一个连接函数,连接其中的元素成为向量;
将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1-3,提取结构子图特征向量。
9.根据权利要求8所述的一种基于结构子图特征的动态网络链接的预测方法,其特征在于,步骤4所述利用训练集合训练神经网络,使用训练完成的神经网络来预测测试集合中待预测链接形成的概率包括:
步骤4-1,将训练集合中等量的在T时刻存在的正类链接和在T时刻不存在的负类链接的结构子图特征向量作为训练数据,输入到一个包含3层全连接隐层的神经网络,3层隐层分别有32,32和16个神经元,最后一层由softmax函数完成二分类的输出;
步骤4-2,利用反向传播法训练神经网络;
步骤4-3,将测试集合中待预测链接的结构子图特征向量输入到训练完成的神经网络中,得到所述链接形成的概率,若该概率大于等于0.5,则认为所述链接将会形成,反之则不会形成。
10.一种基于结构子图特征的动态网络链接的预测方法,其特征在于,包括:
步骤1,归并以目标链接为中心的子网络中的相同结构节点,得到动态网络拓扑结构的结构子图;
步骤2,根据所述结构子图需要包含的结构点个数K,确定所述结构子图的规模得到K结构子图;
步骤3,将K结构子图中蕴含的拓扑信息及链接的时间戳编码成结构子图特征向量,将训练集合和测试集合中的所有链接依次作为目标链接,重复步骤1-3,提取结构子图特征向量;
步骤4,利用训练集合训练线性回归模型,使用训练完成的线性回归模型来预测测试集合中待预测链接形成的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811430850.XA CN109583494A (zh) | 2018-11-28 | 2018-11-28 | 基于结构子图特征的动态网络链接的特征提取及预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811430850.XA CN109583494A (zh) | 2018-11-28 | 2018-11-28 | 基于结构子图特征的动态网络链接的特征提取及预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109583494A true CN109583494A (zh) | 2019-04-05 |
Family
ID=65925086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811430850.XA Pending CN109583494A (zh) | 2018-11-28 | 2018-11-28 | 基于结构子图特征的动态网络链接的特征提取及预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109583494A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081016A (zh) * | 2019-12-18 | 2020-04-28 | 北京航空航天大学 | 一种基于复杂网络理论的城市交通异常识别方法 |
CN111967712A (zh) * | 2020-07-08 | 2020-11-20 | 北京航空航天大学 | 一种基于复杂网络理论的交通风险预测方法 |
CN112070213A (zh) * | 2020-08-28 | 2020-12-11 | Oppo广东移动通信有限公司 | 神经网络模型的优化方法、装置、设备及存储介质 |
-
2018
- 2018-11-28 CN CN201811430850.XA patent/CN109583494A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081016A (zh) * | 2019-12-18 | 2020-04-28 | 北京航空航天大学 | 一种基于复杂网络理论的城市交通异常识别方法 |
CN111081016B (zh) * | 2019-12-18 | 2021-07-06 | 北京航空航天大学 | 一种基于复杂网络理论的城市交通异常识别方法 |
CN111967712A (zh) * | 2020-07-08 | 2020-11-20 | 北京航空航天大学 | 一种基于复杂网络理论的交通风险预测方法 |
CN111967712B (zh) * | 2020-07-08 | 2023-04-07 | 北京航空航天大学 | 一种基于复杂网络理论的交通风险预测方法 |
CN112070213A (zh) * | 2020-08-28 | 2020-12-11 | Oppo广东移动通信有限公司 | 神经网络模型的优化方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ji et al. | Spatio-temporal self-supervised learning for traffic flow prediction | |
CN112529168B (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
Cinar et al. | Scenario analysis using Bayesian networks: A case study in energy sector | |
CN107341270A (zh) | 面向社交平台的用户情感影响力分析方法 | |
CN109583494A (zh) | 基于结构子图特征的动态网络链接的特征提取及预测方法 | |
CN106650725A (zh) | 基于全卷积神经网络的候选文本框生成和文本检测方法 | |
CN113780002A (zh) | 基于图表示学习和深度强化学习的知识推理方法及装置 | |
CN106326585A (zh) | 基于贝叶斯网络推理的预测分析方法以及装置 | |
CN109840322A (zh) | 一种基于强化学习的完形填空型阅读理解分析模型及方法 | |
CN110825948A (zh) | 基于促谣-辟谣消息和表示学习的谣言传播控制方法 | |
CN110347881A (zh) | 一种基于路径回溯图嵌入的群体发现方法 | |
CN108960488A (zh) | 一种基于深度学习与多源信息融合的饱和负荷空间分布精准预测方法 | |
CN109543708A (zh) | 融合拓扑特征的面向图数据的模式识别方法 | |
CN112417289A (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
CN114741519A (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
Zhu et al. | Sraslr: A novel social relation aware service label recommendation model | |
Silva et al. | Machine learning in complex networks | |
Tsadiras et al. | Making predictions of global warming impacts using a semantic web tool that simulates fuzzy cognitive maps | |
Geng et al. | Applying the blockchain-based deep reinforcement consensus algorithm to the intelligent manufacturing model under internet of things | |
Buscema et al. | A nonlinear, data-driven, ANNs-based approach to culture-led development policies in rural areas: The case of Gjakove and Peć districts, Western Kosovo | |
Kuznetsova et al. | Complexity and vulnerability of Smartgrid systems | |
CN116258504B (zh) | 银行客户关系管理系统及其方法 | |
Wang et al. | A network representation learning method based on topology | |
CN116110232A (zh) | 一种基于分层动态残差图卷积网络的交通流量预测方法 | |
CN115018212B (zh) | 发电用水量预测分析方法、系统及云平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190405 |
|
RJ01 | Rejection of invention patent application after publication |