CN108304496A

CN108304496A - 异构信息网中基于组合元路径的节点相似关系检测方法

Info

Publication number: CN108304496A
Application number: CN201810028589.4A
Authority: CN
Inventors: 潘理; 吴钦臣
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-07-20
Anticipated expiration: 2038-01-11
Also published as: CN108304496B

Abstract

本发明提供了一种异构信息网中基于组合元路径的节点相似关系检测方法，包括如下步骤：构造异构信息网；参考样本对选取；搜索连接参考样本对源‑目标节点的路径实例；映射路径实例得到候选元路径；基于候选元路径计算不同路径约束下节点间关联关系强度；计算信息熵来进行候选元路径筛选，最后得到描述节点间关联关系的组合元路径。本发明针对异构信息网语义丰富的特点，提出组合元路径的概念来描述不同节点之间的关联关系，进而用来度量不同节点对之间关联关系的相似性，适用于异构信息网中携带相似关联关系的节点对搜索任务。

Description

异构信息网中基于组合元路径的节点相似关系检测方法

技术领域

本发明涉及社交网络技术领域，具体地，涉及一种异构信息网中基于组合元路径的节点相似关系检测方法，可用于社交网络中携带相似关联关系的节点对发现。

背景技术

社交网络中实体间关联关系的分析有重要作用。社交网络中不同实体间以特定的关联关系彼此连接，构成复杂的异构网络，分析其关联特性有利于我们发现携带特定关联关系的实体，同时该技术也可用于基于异构信息网的推荐系统。为了使社交网络成为更可靠的信息传播平台，当发生突发事件时，利用节点间的关联关系我们可以迅速发现引起突发事件的起因，并发现可能引起突发事件的其他相似实体。除此之外，分析社交网络中不同节点之间的关联关系，为实现个性化的推荐提供了解决方案。所以，挖掘出携带节点间完备关联关系的组合元路径具有很好的应用场景。

经对现有技术的文献检索发现，元路径被广泛运用于异构信息网框架下的相关研究，但是对先验知识指导下元路径选择的依赖使得元路径自动挖掘的研究受到限制。Yizhou Sun等人于2011年的论文“Pathsim：Meta path-based top-k similarity searchin heterogeneous information networks”从领域经验、穷举法以及学习算法三个方面介绍了路径挖掘的方案。利用领域经验的方法中，领域专家依赖对问题的先验了解直接给出精简有效的元路径，但这些元路径必受到人为因素的干扰而产生波动。穷举法进行路径选择时虽然最终可以得到描述关联关系的最佳路径，但这种贪心式的策略会受限于时间开销。同时，这两类方案均难以应用于复杂网络分析。使用学习算法实现路径挖掘为此类问题提供了规范化的解决方案，早期研究中，N.Lao等人于2010年的文章“Relationalretrieval using a combination of path-constrained random walks”从异构网节点类型亲缘关系的角度出发提出了PRA算法，该算法使用定长的子元路径，然后借助于L-BFGS学习组合路径加权系数；L.A.Galarraga等人于2013年的论文“AMIE：association rulemining under incomplete evidence in ontological knowledge bases”利用关联分析的方法作为支撑提出了AMIE算法，该算法挖掘得到的路径是基于整个异构网节点间关联关系的全局解，它忽视了关联语义所具备的局部特点；除此之外，从特征选择的角度Meng等人于2015年的论文“Discovering meta-paths in large heterogeneous informationnetworks”提出了FSPG算法，它利用前向特征选择为组合路径加入在语义上最相关的子路径，并使用修改后的最小角回归为组合元路径求解加权系数。这些算法为本文的组合路径挖掘算法CMPM的实现提供了参考。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种异构信息网中基于组合元路径的节点相似关系检测方法，所挖掘得到的组合元路径语义更完备，并且仅需要一对参考样本对作为输入。

为达到上述目的，本发明所采用的技术方案如下：

一种异构信息网中基于组合元路径的节点相似关系检测方法，包括如下步骤：

步骤S1：输入异构信息网G、参考样本对(s，t)以及路径粗筛时所用的路径实例数K；其中，s表示源节点，t表示目标节点；

步骤S2：利用经典的YenKSP算法搜索得到K条连接参考样本对(s，t)中的最短路径实例；

步骤S3：映射最短路径实例得到候选元路径集合CP及其对应的路径实例数；

步骤S4：基于HeteSim算法计算候选元路径集合CP约束下节点间关联语义强度；

步骤S5：基于关联语义强度计算信息熵来量化语义的完备性，若语义不完备，更新路径实例数K，回到步骤S2，重新执行步骤S2至步骤S5；

步骤S6：使用假设检验法精筛候选元路径集合，输出描述节点间关联关系的组合元路径；

步骤S7：在步骤S6得到的组合元路径约束下搜索携带相似关联关系的节点对；

步骤S8：输出携带相似关联关系的节点对。

优先地，所述步骤S2包括：

步骤S2.1：利用经典的top-K最短路径算法YenKSP搜索连接参考样本对(s，t)内源节点s和目标节点t的路径实例；

步骤S2.2：选取前K条最短的路径实例P¹。

优先地，所述步骤S3包括：

步骤S3.1：映射top-K路径实例P¹，得到候选元路径集合CP＝{Π_i，1≤i≤Q}，其中，Π_i集合中的子候选元路径，Q表示候选元路径的数目；

步骤S3.2：累积计算候选元路径集合中的各子候选元路径所对应的路径实例数作为子候选元路径重要性的判定依据，各子候选元路径及其对应的路径实例数集合记为M＝{Π₁：n₁，Π₂：n₂，...，Π_Q：n_Q}，其中，n_i(1≤i≤Q)表示子候选元路径Π_i所对应的路径实例数。

优先地，所述步骤S4包括：

步骤S4.1：利用经典的HeteSim算法计算参考样本对(s，t)在候选元路径集合CP中各子候选元路径约束下节点间的关联语义强度σ(s，t|Π_i，G)；HeteSim算法下节点间的相似度定义为：

其中，I(.)表示各节点的入邻节点，O(.)表示出邻节点，表示元路径，|O_i(s|R₁)|表示s的出邻节点中类型为A₁的节点数，|I_j(t|R₁)|则表示t的入邻节点中类型为R₁的节点数；

步骤S4.2：使用子候选元路径Π_i对应路径实例数n_i占M中所有实例数的比例作为子候选元路径的加权系数ω_i；

步骤S4.3：计算加权的子候选元路径约束下节点间相似度ω_i*σ(s，t|Π_i，G)，用于描述不同路径约束下参考节点对(s，t)内节点间的关联语义强度向量sim。

优先地，所述步骤S5包括：

步骤S5.1：利用作为归一化系数对关联语义强度向量sim进行归一化，并对其内部分量进行由大到小排序；

步骤S5.2：计算当前所有子候选元路径约束下语义强度的信息熵：

步骤S5.3：若由信息熵H描述的关联语义不完备，则更新路径实例数K，回到步骤S2。

优先地，所述步骤S6包括：

步骤S6.1：利用假设检验的方法从归一化排序后的向量sim中选择不同子候选元路径Π_i的语义强度数值，累计计算前P条子候选元路径所占信息熵H的比例，同时将Π_i加入到路径数组Π；

步骤S6.2：如果步骤S6.1中计算得到的比例小于1-α，则回到步骤S6.1；其中α表示路径精筛的控制系数，其数值越小则精筛得到的组合元路径语义越丰富但复杂度也越高；

步骤S6.3：得到P条语义完备的路径集合Π后，利用M中子候选元路径对应的路径实例数更新各子候选元路径权值w，得到精筛后的组合元路径(Π，w)。

优先地，所述步骤S7包括：

步骤S7.1：以F_(s，t)＝{(Π_i，w_i)，1≤i≤P}表示组合元路径(Π，w)中的子路径，计算参考样本对(s，t)在组合元路径(Π，w)约束下的关联语义强度向量：

f_(s，t)＝{ω_iσ((x，y)|Π_i)，1≤i≤P}；

其中，(x，y)表示与参考样本对(s，t)携带相似关联关系的节点对，x表示节点对的源节点，y表示节点对的目标节点，P表示元路径约束；

步骤S7.2：同理，在组合元路径(Π，w)约束下计算异构网中其他节点对的关联语义强度向量f_(x，y)＝{w_iσ(x，y)|Π_i，1≤i≤P}，其中，x表示节点对的源结点，y表示节点对的目标结点，P表示元路径约束；

步骤S7.3：利用以下公式搜索与参考样本对(s，t)携带相似关联关系的节点对(x，y)：

Rsim((x，y)|(s，t))＝1/Euc(f_(x，y)，f_(s，t))；

其中，Euc表示欧氏距离。

本发明提供的异构信息网中基于组合元路径的节点相似关系检测方法，包括：构造异构信息网；参考样本对选取；搜索连接参考样本对源-目标节点的路径实例；映射路径实例得到候选元路径；基于候选元路径计算不同路径约束下节点间关联关系强度；计算信息熵来进行候选元路径筛选，最后得到描述节点间关联关系的组合元路径。本发明针对异构信息网语义丰富的特点，提出组合元路径的概念来描述不同节点之间的关联关系，进而用来度量不同节点对之间关联关系的相似性，适用于异构信息网中携带相似关联关系的节点对搜索任务。

与现有技术相比，本发明具有如下的有益效果：

1、根据本发明提供的异构信息网中基于组合元路径的节点相似关系检测方法在路径挖掘时仅需要一对参考样本对作为输入即可，免去了数据采集的步骤及其噪声可能带来的不良干扰。

2、根据本发明提供的异构信息网中基于组合元路径的节点相似关系检测方法，通过对路径的合理加权其所携带的语义比传统的方法获得的元路径语义更完备。

附图说明

通过阅读参照以下附图对非限制性实例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的异构信息网中组合元路径挖掘算法的流程图；

图2为以DBLP数据集中(Jiawei Han，Philip S.Yu)携带的优秀学者间合作关系作为参考样本对，使用CMPM算法挖掘得到的描述二者关联关系的组合元路径及其权值；

图3为在ACM和DBLP数据集中，使用CMPM进行路径挖掘时，使用不同的路径实例数对描述关联语义的信息熵的影响，该变化关系可用于更新图1中的参数K。

图4为使用表3给出的基准排序对表1的ACM数据集下的相似节点对进行量化分析后的结果，其中，(a)为利用归一化无序度对表1的相似节点对进行量化分析后的结果，(b)利用精度对表1的相似节点对进行量化分析后的结果，(c)为利用召回率对表1的相似节点对进行量化分析后的结果，(d)为利用F1-Score对表1的相似节点对进行量化分析后的结果；

图5为使用表3给出的基准排序对表2的DBLP数据集下相似节点对进行量化分析后的结果，其中，(a)为利用归一化无序度对表2的相似节点对进行量化分析后的结果，(b)为利用精度对表2的相似节点对进行量化分析后的结果，(c)为利用召回率对表2的相似节点对进行量化分析后的结果，(d)为利用F1-Score对表2的相似节点对进行量化分析后的结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本邻域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

实施例

为了更清楚地说明本发明中的技术方案，列举如下的具体的实施例进一步说明：

根据本发明提供的异构信息网中基于组合元路径的节点相似关系检测方法，包括如下步骤：

步骤S1：输入异构信息网G、参考样本对(s，t)以及路径粗筛时所用的路径实例数K；

步骤S2：利用经典的YenKSP算法搜索得到K条连接(s，t)的最短路径实例；利用经典的YenKSP算法搜索得到K条最短路径实例；

所述的步骤S2，具体为：

步骤S21：利用经典的top-K最短路径算法YenKSP搜索连接参考样本对(s，t)内源-目标节点的路径实例；

步骤S22：选取前K条路径实例P¹。

步骤S3：映射路径实例得到候选元路径CP及其对应的路径实例数；

所述的步骤S3，具体为：

步骤S31：映射top-K路径实例P¹，得到候选元路径集合CP＝{Π_i，1≤i≤Q}；

步骤S32：累积计算各子元路径所对应的路径实例数作为子路径重要性的判定依据，候选路径及其对应的路径实例数记为M＝{Π₁：n₁，Π₂：n₂，...，H_Q：n_Q}；

步骤S4：基于HeteSim计算元路径CP约束下节点间关联语义强度；

所述的步骤S4，具体为：

步骤S41：利用经典的HeteSim算法计算参考样本对(s，t)在候选路径集合CP中各子路径约束下节点间的关联语义强度σ(s，t|Π_i，G)；

步骤S42：使用子路径Π_i对应路径实例数n_i占M中所有实例数的比例作为子路径的加权系数ω_i；

步骤S43：计算加权的路径约束下节点间相似度ω_i*σ(s，t|Π_i，G)，用于描述不同路径约束下参考节点对(s，t)内节点间的关联语义强度向量sim；

步骤S5：基于关联语义强度计算信息熵来量化语义完备性的，若语义不完备，更新K，回到步骤S2；

所述的步骤S5，具体为：

步骤S51：利用对关联语义强度向量sim进行归一化并递减排序；

步骤S52：计算当前所有子路径约束下语义强度的信息熵

步骤S53：若由信息熵H描述的关联语义不完备，则更新路径实例数K，回到步骤2；

步骤S6：使用假设检验法精筛候选元路径，输出描述节点间关联关系的组合元路径；

所述的步骤S6，具体为：

步骤S61：利用假设检验的方法从归一化排序后的向量sim中选择不同元路径Π_i的语义强度数值，累计计算前P条路径所占信息熵H的比例，同时将Π_i加入到路径数组Π；

步骤S62：如果上述比例小于1-α，则重复步骤6.1；

步骤S63：得到P条语义完备的路径集合Π后，利用M中子路径对应的路径实例数更新各子路径权值w，得到精筛后的组合元路径(Π，w)；

步骤S7：在上述组合元路径约束下搜索携带相似关联关系的节点对；

所述的步骤S7，具体为：

步骤S71：以F_(s，t)＝{(Π_i，w_i)，1≤i≤P}表示组合元路径(Π，w)的子路径，利用Hete计算参考样本对在其约束下的关联语义强度向量f_(s，t)＝{ω_iσ((x，y)|Π_i)，1≤i≤P}；

步骤S72：同理，在组合路径约束下计算异构网中其他节点对的关联语义强度向量f_(x，y)＝{w_iσ(x，y)|Π_i，1≤i≤P}；

步骤S73：利用以下公式搜索与(s，t)携带相似关联关系的节点对(x，y)：

Rsim((x，y)|(s，t))＝1/Euc(f_(x，y)，f_(x，t))

步骤S8：输出携带相似关联关系的节点对。

为使本实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图对本实施例进行详细描述。

如图1所示，本实施例提供的基于组合元路径挖掘的节点相似关系检测方法，包括如下步骤：

步骤S2：利用经典的YenKSP算法搜索得到K条最短路径实例。该算法利用最短路径算法搜索得到连接参考样本对(s，t)内源目标节点的top-K最短路径实例P¹；

步骤S3：映射路径示例得到候选元路径集合CP＝{Π_i，1≤i≤Q}，其所对应的路径实例数为M＝{Π₁：n₁，Π₂：n₂，...，Π_Q：n_Q}对应的键值；

步骤S4：基于HeteSim计算参考样本对(s，t)在候选路径集合CP中各子路径约束下节点间的相似度σ(s，t|Π_i，G)，然后使用子路径Π_i对应路径实例数n_i占M中所有实例数的比例作为子路径的加权系数ω_i，同时存放ω_i*σ(s，t|Π_i，G)到参考节点对(s，t)内节点间的关联语义强度向量sim；

步骤S5：利用对关联语义强度数值sim进行归一化并递减排序，计算当前所有子路径约束下语义强度的信息熵若由信息熵描述的关联语义不完备，则更新路径实例数K，回到步骤S2；

步骤S6：利用假设检验的方法从归一化排序后的向量sim中选择不同元路径Π_i的语义强度数值，累计计算前P条路径所占信息熵H的比例，同时将Π_i加入到路径数组Π。如果上述比例小于1-α，则回到步骤S6.1。得到P条语义完备的路径集合Π后，利用M中子路径对应的路径实例数更新各子路径权值w，得到精筛后的组合元路径(Π，w)；

步骤S7：以F_(s，t)＝{(Π_i，w_i)，1≤i≤P}表示组合元路径(Π，w)的子路径，利用Hete计算参考样本对在其约束下的关联语义强度向量f_(s，t)＝{ω_iσ((x，y)|Π_i)，1≤i≤P}以及在组合路径约束下计算异构网中其他节点对的关联语义强度向量f_(x，y)＝{w_iσ(x，y)|Π_i，1≤i≤P}。然后，利用Rsim((x，y)|(s，t))＝1/Euc(f_(x，y)，f_(x，t))搜索与(s，t)携带相似关联关系的节点对(x，y)；

步骤S8：输出携带相似关联关系的节点对。

本实施例的有效性可以通过下面的仿真实验来进一步说明。需要说明的是，实验中应用的参数不影响本发明的一般性。

1)仿真条件：

CPU Inteli7-3770S 3.10GHz，RAM 16.00GB，操作系统Windows 10，仿真程序编写语言Python 2.7。

2)仿真内容：

在两个真实网络上进行实验来评估算法的效率和效果。两个真实网络均来自于Arnetminer上归档于2016年的ACM与DBLP数据集。两种数据集分别包含230万、320万篇论文，预处理时滤除2005年及其以前的论文数据，并只保留数据挖掘、数据库领域最主要的会议所包含的论文，最终构造的两种异构信息网各自包含16360篇以及24332篇论文信息。使用的参考样本对为(Jiawei Han，Phillip S.Yu)所携带的学者间相似关系以及(JiaweiHan，SIGKDD)携带的学者参加学术会议的关联关系。最后，利用谷歌参考基准，使用归一化无序度、精度、召回率、F1-Score来对结果进行量化分析。

仿真实验在DBLP数据集上基于参考样本对(Jiawei Han，Phillip S.Yu)搜索得到的组合元路径及其权值如图2所示。在ACM与DBLP数据集上，由(Jiawei Han，Phillip S.Yu)对应的组合元路径约束下携带相似关联关系的搜索结果如表1、表2所示。对应的，利用归一化无序度、精度、召回率、F1-Score量化分析的结果如图4、图5所示。(Jiawei Han，SIGKDD)所对应的学者参加学术会议的关联关系对应的搜索及标准化折扣累计增益(normalizeddiscounted cumulative gain，nDCG)数值结果如表4所示。图4(a)与图5(a)给出的归一化无序度度量结果表明CMPM算法所生产的组合元路径相比于先验路径以及简单组合路径能更好的描述参考样本对(Jiawei Han，Philip Yu)所表达的学者间相似关系，另外图中精度、召回率、F1-Score量化分析的结果除了同样揭示了归一化无序度所反映出的CMPM路径生成算法的可靠性之外，它们还表明简单组合元路径下最靠前的几条搜索结果与CMPM对应的组合路径下的结果接近，这意味着先验知识下的简单组合路径所携带的语义确实可以捕捉一部分节点间的关联语义，但是它在语义捕捉的深度上要明显弱于CMPM算法。

本实施例提供的异构信息网中基于组合元路径的节点相似关系检测方法，可用于社交网络中携带相似关联关系的节点对发现。本实施例基于学术合作关系异构信息网挖掘相似学者间的合作关系以及学者参加的学术会议间的关联关系，然后基于描述此关联关系的组合路径进行相似关系的节点对搜索。

本实施例中：

表1以ACM数据集中(Jiawei Han，Philip S.Yu)携带的学者间相似关系作为参考样本对，使用CMPM算法挖掘得到的组合元路径进行携带相似关联关系的节点对搜索排名结果(表中列出的是目标结点，源结点均为Jiawei Han，同时也列出了在先验元路径APA、APTPA、APCPA和先验组合元路径下的搜索结果作为对比；

表2以DBLP数据集中(Jiawei Han，Philip S.Yu)携带的学者间相似关系作为参考样本对，使用CMPM算法挖掘得到的组合元路径进行携带相似关联关系的节点对搜索结果(表中列出的是目标结点，源结点均为Jiawei Han)，同时也列出了在先验元路径下的搜索结果作为对比；

表3以(Jiawei Han，Philip Yu)所携带的学者间相似关系为参考，从谷歌学术找到数据挖掘领域与Jiawei Han存在关联的学者近年论文发引用量、h因子、i10因子及谷歌给出的合作关系排名数据组成特征向量，以欧式距离计算得到基准参考样本，用于表1、表2搜索结果的评估；

表4以ACM和DBLP数据集中(Jiawei Han，SIGKDD)携带的学者及其参加学术会议间的关系作为参考样本对，使用CMPM算法挖掘得到的组合元路径进行携带相似关联关系的节点对搜，表中列出的是会议名，而源结点均为Jiawei Han。

表1

表2

表3

表4

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本邻域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种异构信息网中基于组合元路径的节点相似关系检测方法，其特征在于，包括如下步骤：

步骤S2：利用YenKSP算法搜索得到K条连接参考样本对(s，t)中的最短路径实例；

步骤S8：输出携带相似关联关系的节点对。

2.根据权利要求1所述的异构信息网中基于组合元路径的节点相似关系检测方法，其特征在于，所述步骤S2包括：

步骤S2.1：利用经典的top-K最短路径搜索算法YenKSP搜索连接参考样本对(s，t)内源节点s和目标节点t的路径实例；

步骤S2.2：选取前K条最短的路径实例P¹。

3.根据权利要求2所述的异构信息网中基于组合元路径的节点相似关系检测方法，其特征在于，所述步骤S3包括：

步骤S3.1：映射top-K路径实例P¹，得到候选元路径集合CP＝{Π_i，1≤i≤Q}，其中，Π_i表示集合中的子候选元路径，Q表示候选元路径的数目；

步骤S3.2：累积计算候选元路径集合中的各子候选元路径所对应的路径实例数作为子候选元路径重要性的判定依据，各子候选元路径及其对应的路径实例数集合记为M＝{Π₁∶n₁，Π₂∶n₂，...，Π_Q∶n_Q}，其中，n_i(1≤i≤Q)表示子候选元路径Π_i所对应的路径实例数。

4.根据权利要求3所述的异构信息网中基于组合元路径的节点相似关系检测方法，其特征在于，所述步骤S4包括：

其中，I(·)表示各节点的入邻节点，O(·)表示出邻节点，表示元路径，|O_i(s|R_l)|表示s的出邻节点中类型为A₁的节点数，|I_j(t|R_l)|则表示t的入邻节点中类型为R_l的节点数；

5.根据权利要求4所述的异构信息网中基于组合元路径的节点相似关系检测方法，其特征在于，所述步骤S5包括：

步骤S5.1：利用作为归一化系数对关联语义强度sim进行归一化，并对其内部分量进行由大到小排序；

6.根据权利要求5所述的异构信息网中基于组合元路径的节点相似关系检测方法，其特征在于，所述步骤S6包括：

步骤S6.2：如果步骤S6.1中计算得到的比例小于1-α，则回到步骤S6.1；其中α表示路径精筛的控制系数，其数值越小则精筛得到的组合元路径语义越丰富，但复杂度也越高；

7.根据权利要求6所述的异构信息网中基于组合元路径的节点相似关系检测方法，其特征在于，所述步骤S7包括：

f_(s，t)＝{ω_iσ((x，y)|Π_i)，1≤i≤P}

步骤S7.2：在组合元路径(Π，w)约束下计算异构网中其他节点对的关联语义强度向量f_(x，y)＝{w_iσ(x，y)|Π_i，1≤i≤P}；

Rsim((x，y)|(s，t))＝1/Euc(f_(x，y)，f_(s，t))；

其中，Euc表示欧式距离。