CN107145527A

CN107145527A - 对齐异构社交网络中基于元路径的链路预测方法

Info

Publication number: CN107145527A
Application number: CN201710244506.0A
Authority: CN
Inventors: 刘波; 陈巧云; 尹劼; 曹玖新; 罗军舟
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-04-14
Filing date: 2017-04-14
Publication date: 2017-09-08

Abstract

本发明公开了一种对齐异构社交网络中基于元路径的链路预测方法，主要解决对齐异构社交网络中的链路预测问题（主要包括好友关系预测和位置预测），涉及到对齐异构社交网络、特征选择、链路预测等相关技术。该方法主要包括六个步骤：（a）对齐异构社交网络建模；（b）元路径的自动化提取；（c）定义基于元路径的特征值计算方法；（d）按时间戳划分数据集；（e）提出一种两阶段逐步向前贪心特征选择算法进行特征选择；（f）基于特征选择的结果训练决策树分类器进行链路预测。基于此，本发明对Foursquare和Twitter组成的对齐异构社交网络进行链路预测，对社交网络中的实体推荐、精准营销及犯罪团伙发现等具有实际应用价值。

Description

对齐异构社交网络中基于元路径的链路预测方法

技术领域

本发明是一种异构社交网络中基于元路径的链路预测方法，利用了特征选择、链路预测等相关技术，涉及社会计算特别是链路预测领域。

背景技术

首先对本发明中涉及到的相关概念进行定义：

异构社交网络(heterogeneous social network)：给定社交网络N＝(V，E)，其中V＝V_user∪V_non-user表示节点集合，包含用户集合V_user和非用户节点集合V_non-user，E＝E_user，user∪E_{user，non-user}∪E_{non-user，non-user}}是用户节点之间、用户与非用户节点以及非用户节点之间的边集合，则称N为一个异构社交网络；

锚链路(anchor link)：给定两个异构社交网络N_i、N_j以及两个账号和即和分别属于两个不同异构社交网络的用户节点集合，若和在现实中为同一个用户，则称和存在锚链路，记作N_i、N_j之间的锚链路集合记作

对齐异构社交网络(aligned heterogeneous social network)：给定两个异构社交网络N_i、N_j，若N_i和N_j的用户集合和之间至少存在一条锚链路，则称N_i和N_j组成对齐异构社交网络记作其中A为锚链路集合。

网络模式(network schema)：网络模式是对实际社交网络的抽象，形式化表示为T_N＝(S，R)，其中R表示网络中的节点类型集合，S表示网络中的变类型集合。

元路径(meta path)：元路径是定义在网络模式中的路径，给定一个网络模式T_N＝(S，R)，形如的路径称为元路径，其中S_i∈S(i＝1，...，l+1)，R_j∈R(j＝1，...，l+1)；

实例路径(instance path)：给定元路径当网络中两个节点v₁和v_l+1之间存在路径且对于所有节点v_i∈S_i，所有关系r_i∈R_i，则称路径p为元路径P的一个实例路径。

对齐异构社交网络的链路预测(Link Prediction in Aligned HeterogeneousSocial Networks)：给定对齐异构社交网络记v＝V_i∪V_j，其中V_i和V_j分别为N_i和N_j的点集，记ε为v中节点之间的边集合，则不存在的边集合为ε′＝ε×ε-v，那么对齐异构社交网络的链路预测即为预测在未来是否会形成。

链路预测(link prediction)是社交网络研究中的一个重要分支和基础环节，它基于可观察到的网络拓扑结构特征和节点自身的属性特征，预测两个不存在链路的节点之间在未来是否会形成链路。链路预测通常被看作是一个二分类问题，即对于两个给定的节点，预测两者之间是否会形成链路。链路预测对于精准营销、犯罪团伙发现等领域都有着重要的实际应用价值。

早期的链路预测主要是在单个社交网络中进行，常用的方法一般分为(1)基于相似性的预测；(2)基于最大似然估计的预测；(3)基于概率关系模型的预测等。其中，基于相似性的方法假设两个节点越相似，它们之间未来建立链路的可能性越大，于是，计算两个节点的相似性是这类方法的主要途径。典型的方法有共同邻居、Jaccard系数、Katz指标、RWR(random walk with restart)等。基于最大似然估计的预测方法分为层次结构模型和随机分块模型，两者都是建立一个初始模型然后通过极大似然估计的方法调整结构，最终达到收敛状态。概率关系模型则有贝叶斯网络关系模型、马尔科夫网络关系模型和关系依赖网络模型等。

然而，在进行链路预测时，利用单一网络的信息往往不能取得很好的效果，例如，一个新用户在加入一个社交网络时，其在该网络中的拓扑关系和个人属性特征等信息都是相当稀疏的，这也就使得利用单网络信息为该用户推荐好友或服务时很难取得较好的效果。此外，由于现实中基本不存在完全对齐的社交网络，因此人们在现实中的好友不会存在于每个社交网络中，也就是说，用户在某个社交网络中的好友只是真实好友的一部分。而由于网络功能、性质的差异性，用户在使用不同的社交网络时，也会发布不同的信息(post)。因此，只观察一个社交网络很难获取关于某个真实用户足够的社交关系和对该用户兴趣爱好、生活习惯、性格特点等等全面的认识。因此，综合不同社交网络的信息，对于更为准确的链路预测工作具有指导性意义。

对齐异构社交网络中的链路预测工作还处于起步阶段。多数研究仍然集中在以用户-用户链路预测为主的问题中，现有的工作中存在属性或数据字段利用率不高，特征设计考虑的因素过少、特征筛选方法不够好等问题，因此也无法从已有特征中得到准确具体的结论。而且这些理论上的链路预测的预测搜索空间远远达不到实体推荐的需求，并且也没有按照时间顺序真正地进行“预测”而是数据正负例的交叉验证。因此，与链路预测相关的工作种类不多，针对这些不足，本发明将从特征定义和特征筛选等方面对部分对齐异构社交网络中的链路预测问题进行研究，利用基于元路径的方法挖掘用户(实体)之间的相关性，从而解决对齐异构社交网络中的链路预测问题。

发明内容

针对当前对齐异构社交网络中的链路预测相关研究较少，且已有研究考虑的因素较少，传统的协同过滤、矩阵分解等链路预测方法很难解决数据稀疏性问题，结合现有的链路预测、特征选择等相关技术，本发明提出了一种对齐异构社交网络中基于元路径的链路预测方法，主要解决对齐异构社交网络中的用户推荐和位置推荐问题。该方法能够有效地挖掘出用户(实体)之间基于不同元路径的语义相关性，同时也在一定程度上缓解了数据的稀疏性问题，从而达到较好的推荐效果。

为了解决上述问题，本发明提出了一种对齐异构社交网络中基于元路径的链路预测方法，具体的技术方案包括以下五个步骤：

1.对齐异构社交网络(aligned heterogeneous social network)建模：

将Foursquare和Twitter组成的对齐异构社交网络建模为其中N_F＝(V_F，E_F)表示Foursquare网络，N_T＝(V_T，E_T)表示Twitter网络，A表示Foursquare与Twitter之间的锚链路集合，具体而言：

在Foursquare网络中，节点集合包括用户节点集合和位置节点集合边集合包括：

●用户-用户边集合对于表示用户和用户存在好友关系；

●用户-位置边集合对于表示用户访问过位置并发布了tip；

●位置-位置边集合对于表示位置和位置间存在共同访问用户；

在Twitter网络中，节点集合包括用户节点集合和位置节点集合边集合包括：

●用户-用户边集合对于表示用户关注了用户

●用户-位置边集合对于表示用户在位置发布过推文；

Foursquare和Twitter组成的对齐异构社交网络的网络模式可以抽象为T_N＝(S，R)，其中节点类型集合S＝{U_F，U_T，L_F，L_T}，边类型集合R＝{U_F-U_FUT→UT,UF→LF,UT→LT,UFAUT,LF-LF,LT-LT；

其中，网络中各种边的权值定义及计算方法如下：

1)Foursquare中用户-用户(U_F-U_F)边权值定义为：

其中，为Foursquare的用户，表示用户好友数量；

2)Twitter中用户-用户(U_T→U_T)边权值定义为：

其中，

3)Foursquare/Twitter中用户-位置(U_F→L_F/U_T→L_T)边权值定义为：

给定一条用户-位置边(u_i，l_j)，使用两种方式定义其权值：

●计数计量方式(考虑用户u_i对位置l_j的访问次数)：

●二值计量方式(考虑用户u_i是否访问过位置l_j)：

其中，Loc(u_i)表示用户u_i访问过的位置集合；

4)锚链路边权值定义为：

5)Foursquare/Twitter位置-位置(L_F-L_F/L_T-L_T)边权值定义：

对于给定的一条位置-位置边(l_i，l_j)，使用以下六种方式定义其权值：

●基于空间距离：

dis(l_i，l_j)表示位置l_i和位置l_j间的球面距离，单位为米；

●基于时间访问规律：

t(l_i)是一个24维的向量，表示位置l_i在每个小时内被访问的次数，cos(t(l_i)，t(l_j))表示向量t(l_i)与t(l_j)之间的余弦相似度；

●基于文本相似度：

Doc(l_i)表示位置l_i处的所有tips(推文)形成的文档，此处使用Monge-Elkan距离作为文本相似度的计算方法；

●基于流行度：

cn_i表示位置l_i的访问人次，un_i表示位置l_i的访问次数；

●基于描述相似度：

Des(l_i)表示位置l_i的描述性文字；

●基于类别相似度：

表示位置l_i的类别集合，此处使用位置l_i和位置l_j类别集合的Jaccard相似度表示类别相似度。

2.元路径的自动化提取：

利用深度优先遍历的思想，分别为下述三类链路类型自动化提取元路径集合：

a)Foursquare中以用户类型节点为起始节点、位置类型节点为终止节点，提取的元路径集合记作Ψ；

b)Foursquare中以用户类型节点为起始节点、用户类型节点为终止节点，提取的元路径集合记作Ω；

c)Twitter中以用户类型节点为起始节点、用户类型节点为终止节点，提取的元路径集合记作Γ；

元路径自动选择算法的具体步骤如下：

1)给定网络模式T_N＝(S，R)，元路径起点类型S_i、元路径终点类型S_j，网络内元路径最大长度L_intra＝3以及网络间元路径最大长度L_inter＝5；

2)设置元路径起点类型S_i为起始节点，在网络模式图中利用深度优先遍历搜索的方法提取出所有长度不超过L_intra的网络内元路径和长度不超过L_inter的网络间元路径；

3)从步骤2)得到的元路径集合中筛选出终点为S_j的元路径；

4)在步骤3)得到的元路径集合中，删除存在两条及其以上连续位置-位置边的元路径，形成最终的元路径集合。

3.定义基于元路径的特征值计算方法：

对于3种链路类型对应的元路径集合Ψ、Ω以及Γ，基于元路径的特征向量分别表示为X_Ψ、X_Ω、X_Γ，统称为X_Φ，即：

其中，每个分量按下式计算：

其中，为网络中类型为Φ_i的所有实例路径的特征值之和，表示类型为Φ_i的第r条实例路径的特征值，计算的方法为：

其中，R(Φ_i，s)是元路径Φ_i中第s个关系类型，表示节点v_s到v_s+1在关系R(φ_i，s)下的边权值，l(φ_i)表示元路径Φ_i的长度，即表示该实例路径中所有边的权值的乘积。

4.按时间戳划分数据集：

以Foursquare中用户-位置关系的链路预测为例，首先将数据集的有关历史记录按照时间顺序划分为7:1:1:1四部分，若没有时间信息则随机划分；然后将之前未出现过之后出现的链路标记为1，否则标记为0，于是，使用这四部分数据可以标记出三个带有不同时间跨度标记即具有时间因果性的数据集，即训练数据集、测试数据集以及验证数据集。

5.提出一种两阶段逐步向前贪心选择算法进行特征选择，包括步骤：

利用步骤4得到的训练数据集和测试数据集进行下述特征选择过程：

1)使用信息增益比从特征全集中筛选出K个特征；

2)针对步骤1)获得的特征集合，利用启发式搜索的思想，特征子集从空集合开始，每次加入一个或两个新特征，使得利用该特征子集训练得到的C4.5决策树模型的F₁值达到最优；

3)重复步骤2)，直至模型的F₁值收敛。

6.基于特征选择的结果训练C4.5决策树分类器进行链路预测，包括步骤：

1)按照步骤5得到的特征子集，抽取训练实例集和验证数据集中所有实例相应的特征，形成新的训练数据集和验证数据集；

2)利用步骤1)得到的训练数据集训练C4.5决策树分类器；

3)使用步骤1)得到的验证数据集对步骤2)得到的分类器效果进行评价，评价指标为F₁值。

本发明的有益效果是：

1)利用深度优先遍历的方法自动提取网络模式中蕴含的元路径，该方法能够应用于大规模复杂网络中；

2)结合现有特征选择算法的研究，本发明设计了自己的特征选择算法，该算法结合特征选择算法中过滤模型及封装模型进行设计，能够快速有效地挖掘出有益特征；

3)能够有效地挖掘出用户(实体)之间基于不同元路径的语义相关性，同时也在一定程度上缓解了数据的稀疏性问题，能够得到较好的链路预测效果。

附图说明

图1为Foursquare-Twitter对齐异构社交网络结构图；

图2为Foursquare-Twitter对齐异构社交网络模式图；

图3为本发明的具体实施框架图。

具体实施方式

下面结合附图对本发明再作进一步详细的说明。

1.对齐异构社交网络的建模：

●用户-用户边集合对于表示用户和用户存在好友关系；

●用户-位置边集合对于表示用户访问过位置并发布了tip；

●用户-用户边集合对于表示用户关注了用户

●用户-位置边集合对于表示用户在位置发布过推文；

Foursquare和Twitter组成的对齐异构社交网络的网络模式可以抽象为T_N＝(S，R)，其中节点类型集合S＝{U_F，U_T，L_F，L_T}，边类型集合R＝{U_F-U_F，UT→UT,UF→LF,UT→LT,UFAUT,LF-LF,LT-LT；

其中，网络中各种边的权值定义及计算方法如下：

1)Foursquare中用户-用户(U_F-U_F)边权值定义为：

其中，为Foursquare的用户，表示用户好友数量；

2)Twitter中用户-用户(U_T→U_T)边权值定义为：

其中，

3)Foursquare/Twitter中用户-位置(U_F→L_F/U_T→L_T)边权值定义为：

给定一条用户-位置边(u_i，l_j)，使用两种方式定义其权值：

●计数计量方式(考虑用户u_i对位置l_j的访问次数)：

●二值计量方式(考虑用户u_i是否访问过位置l_j)：

其中，Loc(u_i)表示用户u_i访问过的位置集合；

4)锚链路边权值定义为：

5)Foursquare/Twitter位置-位置(L_F-L_F/L_T-L_T)边权值定义：

●基于空间距离：

dis(l_i，l_j)表示位置l_i和位置l_j间的球面距离，单位为米；

●基于时间访问规律：

t(l_i)是一个24维的向量，表示位置l_i在每个小时内被访问的次数，cos(t(l_i)，t(l_j))表示向量t(l_j)与t(l_j)之间的余弦相似度；

●基于文本相似度：

●基于流行度：

cn_i表示位置l_i的访问人次，un_i表示位置l_i的访问次数；

●基于描述相似度：

Des(l_i)表示位置l_i的描述性文字；

●基于类别相似度：

表示位置l_i的类别集合，此处使用位置l_i和位置l_j类别集合的Jaccard相似度表示类别相似度；

2.元路径的自动化提取：

利用深度优先遍历的思想，分别为下述三类三类链路类型自动化提取元路径集合：

元路径自动选择算法的具体步骤如下：

3)从步骤2)得到的元路径集合中筛选出终点为S_j的元路径；

4)在步骤3)得到的元路径集合中，删除存在两条及其以上连续位置-位置边的元路径，形成最终的元路径集合；

表1是元路径自动化提取的算法伪代码：

3.定义基于元路径的特征值计算方法：

其中，每个分量按下式计算：

4.按时间戳划分数据集：

5.提出一种两阶段逐步向前贪心选择算法进行特征选择：

首先使用信息增益比从特征全集中筛选出K个特征；然后针对这K个特征，利用启发式搜索的思想，特征子集从空集合开始，每次加入一个或两个新特征，使得利用该特征子集训练得到的C4.5决策树模型的F₁值达到最优，并重复该步骤，直至模型性能收敛；

表2是两阶段逐步向前贪心选择算法伪代码：

2)利用步骤1)得到的训练数据集，使用Weka软件训练C4.5决策树分类器；

本发明还可有其他多种实施方式，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明做出各种相应的改变和变形，这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种对齐异构社交网络中基于元路径的链路预测方法，其特征在于：包括以下步骤：

1)对齐异构社交网络建模：

对Foursquare和Twitter组成的对齐异构社交网络进行网络建模，并抽象出网络模式；

2)元路径的自动化提取：

21)Foursquare中以用户类型节点为起始节点、位置类型节点为终止节点，提取的元路径集合记作Ψ；

22)Foursquare中以用户类型节点为起始节点、用户类型节点为终止节点，提取的元路径集合记作Ω；

23)Twitter中以用户类型节点为起始节点、用户类型节点为终止节点，提取的元路径集合记作Γ；

所提取的元路径需满足条件：网络内元路径的长度不超过3，网络间元路径的长度不超过5，某个元路径内不能存在连续两条位置-位置边；

3)定义基于元路径的特征值计算方法；

4)按时间戳划分数据集；

5)提出一种两阶段逐步向前贪心选择算法进行特征选择；

6)基于特征选择的结果训练C4.5决策树分类器进行链路预测。

2.根据权利要求1所述的对齐异构社交网络中基于元路径的链路预测方法，其特征在于，所述步骤1中对齐异构社交网络建模，包括步骤：

Foursquare和Twitter组成的对齐异构社交网络建模为其中N_F＝(V_F，E_F)表示Foursquare网络，N_T＝(V_T，E_T)表示Twitter网络，A表示Foursquare与Twitter之间的锚链路集合，具体而言：

在Foursquare网络中，节点集合包括用户节点集合和位置节点集合边集合

在Twitter网络中，节点集合包括用户节点集合和位置节点集合边集合

Foursquare和Twitter组成的对齐异构社交网络的网络模式可以抽象为T_N＝(S，R)，其中节点类型集合S＝{U_F，U_T，L_F，L_T}，边类型集合

3.根据权利要求2所述的对齐异构社交网络中基于元路径的链路预测方法，其特征在于，所述步骤1中对齐异构社交网络建模，Foursquare和Twitter组成的对齐异构社交网络中的边权值定义及计算方法如下：

1)Foursquare中用户-用户(U_F→U_F)边权值定义为：

其中，为Foursquare的用户，表示用户好友数量；

2)Twitter中用户-用户(U_T→U_T)边权值定义为：

其中，

3)Foursquare/Twitter中用户-位置(U_F→L_F/U_T→L_T)边权值定义为：

给定一条用户-位置边(u_i，l_j)，使用两种方式定义其权值：

●计数计量方式(考虑用户u_i对位置l_j的访问次数)：

●二值计量方式(考虑用户u_i是否访问过位置l_j)：

其中，Loc(u_i)表示用户u_i访问过的位置集合；

4)锚链路边权值定义为：

5)Foursquare/Twitter位置-位置(L_F-L_F/L_T-L_T)边权值定义：

●基于空间距离：

dis(l_i，l_j)表示位置l_i和位置l_j间的球面距离，单位为米；

●基于时间访问规律：

<mrow> <msub> <mi>W</mi> <mrow> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>j</mi> </msub> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> </mrow> </msub> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>(</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>,</mo> <mi>t</mi> <mo>(</mo> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>&CenterDot;</mo> <mo>|</mo> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

●基于文本相似度：

Doc(l_i)表示位置l_i处的所有tips形成的文档，此处使用Monge-Elkan距离作为文本相似度的计算方法；

●基于流行度：

<mrow> <msub> <mi>W</mi> <mrow> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>p</mi> <mi>o</mi> <mi>p</mi> <mi>u</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msqrt> <mrow> <mo>|</mo> <mrow> <mo>(</mo> <msub> <mi>cn</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>cn</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>un</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>un</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </msqrt> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow> 2

cn_i表示位置l_i的访问人次，un_i表示位置l_i的访问次数；

●基于描述相似度：

Des(l_i)表示位置l_i的描述性文字；

●基于类别相似度：

4.根据权利要求1所述的对齐异构社交网络中基于元路径的链路预测方法，其特征在于，所述步骤2中元路径的自动化提取，包括步骤：

1)给定网络模式T_N＝(S，R)，元路径起点类型S_i、元路径终点类型S_j，网络内元路径最大长度L_intra以及网络间元路径最大长度L_inter；

3)从步骤2)得到的元路径集合中筛选出终点为S_j的元路径；

5.根据权利要求4所述的对齐异构社交网络中基于元路径的链路预测方法，其特征在于，所述步骤2中元路径的自动化提取，由于在网络中某些边使用多种方式定义权值，那么对于不同的权值计算方法，所产生的元路径也是不同的，即元路径的提取考虑了边权值的定义。

6.根据权利要求1所述的对齐异构社交网络中基于元路径的链路预测方法，其特征在于，所述步骤3中基于元路径的特征值计算方法为：

其中，每个分量按下式计算：

<mrow> <msub> <mi>X</mi> <msub> <mi>&Phi;</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>X</mi> <msub> <mi>&Phi;</mi> <mi>i</mi> </msub> <mi>r</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>

7.按权利要求1所述的对齐异构社交网络中基于元路径的链路预测方法，其特征在于，所述步骤4中按时间戳划分数据集：以Foursquare中用户-位置关系的链路预测为例，首先将数据集的有关历史记录按照时间顺序划分为7:1:1:1四部分，若没有时间信息则随机划分；然后将之前未出现过之后出现的链路标记为1，否则标记为0，于是，使用这四部分数据可以标记出三个带有不同时间跨度标记即具有时间因果性的数据集，即训练数据集、测试数据集以及验证数据集。

8.按权利要求1所述的对齐异构社交网络中基于元路径的链路预测方法，其特征在于，所述步骤5中提出一种两阶段逐步向前贪心选择算法进行特征选择，步骤包括：

1)使用信息增益比从特征全集中筛选出K个特征；

3)重复步骤2)，直至模型的F₁值收敛。

9.按权利要求1所述的对齐异构社交网络中基于元路径的链路预测方法，其特征在于，所述步骤6中基于特征选择的结果训练C4.5决策树分类器进行链路预测，包括步骤：

2)利用步骤1)得到的训练数据集训练C4.5决策树分类器；