CN108304496A - 异构信息网中基于组合元路径的节点相似关系检测方法 - Google Patents
异构信息网中基于组合元路径的节点相似关系检测方法 Download PDFInfo
- Publication number
- CN108304496A CN108304496A CN201810028589.4A CN201810028589A CN108304496A CN 108304496 A CN108304496 A CN 108304496A CN 201810028589 A CN201810028589 A CN 201810028589A CN 108304496 A CN108304496 A CN 108304496A
- Authority
- CN
- China
- Prior art keywords
- path
- node
- candidate
- composite unit
- heterogeneous information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002131 composite material Substances 0.000 title claims abstract description 53
- 238000001514 detection method Methods 0.000 title claims abstract description 19
- 239000013074 reference sample Substances 0.000 claims abstract description 30
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 239000013256 coordination polymer Substances 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 239000000523 sample Substances 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract 1
- 238000004445 quantitative analysis Methods 0.000 description 13
- 238000005065 mining Methods 0.000 description 8
- 235000013399 edible fruits Nutrition 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012097 association analysis method Methods 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种异构信息网中基于组合元路径的节点相似关系检测方法,包括如下步骤:构造异构信息网;参考样本对选取;搜索连接参考样本对源‑目标节点的路径实例;映射路径实例得到候选元路径;基于候选元路径计算不同路径约束下节点间关联关系强度;计算信息熵来进行候选元路径筛选,最后得到描述节点间关联关系的组合元路径。本发明针对异构信息网语义丰富的特点,提出组合元路径的概念来描述不同节点之间的关联关系,进而用来度量不同节点对之间关联关系的相似性,适用于异构信息网中携带相似关联关系的节点对搜索任务。
Description
技术领域
本发明涉及社交网络技术领域,具体地,涉及一种异构信息网中基于组合元路径的节点相似关系检测方法,可用于社交网络中携带相似关联关系的节点对发现。
背景技术
社交网络中实体间关联关系的分析有重要作用。社交网络中不同实体间以特定的关联关系彼此连接,构成复杂的异构网络,分析其关联特性有利于我们发现携带特定关联关系的实体,同时该技术也可用于基于异构信息网的推荐系统。为了使社交网络成为更可靠的信息传播平台,当发生突发事件时,利用节点间的关联关系我们可以迅速发现引起突发事件的起因,并发现可能引起突发事件的其他相似实体。除此之外,分析社交网络中不同节点之间的关联关系,为实现个性化的推荐提供了解决方案。所以,挖掘出携带节点间完备关联关系的组合元路径具有很好的应用场景。
经对现有技术的文献检索发现,元路径被广泛运用于异构信息网框架下的相关研究,但是对先验知识指导下元路径选择的依赖使得元路径自动挖掘的研究受到限制。Yizhou Sun等人于2011年的论文“Pathsim:Meta path-based top-k similarity searchin heterogeneous information networks”从领域经验、穷举法以及学习算法三个方面介绍了路径挖掘的方案。利用领域经验的方法中,领域专家依赖对问题的先验了解直接给出精简有效的元路径,但这些元路径必受到人为因素的干扰而产生波动。穷举法进行路径选择时虽然最终可以得到描述关联关系的最佳路径,但这种贪心式的策略会受限于时间开销。同时,这两类方案均难以应用于复杂网络分析。使用学习算法实现路径挖掘为此类问题提供了规范化的解决方案,早期研究中,N.Lao等人于2010年的文章“Relationalretrieval using a combination of path-constrained random walks”从异构网节点类型亲缘关系的角度出发提出了PRA算法,该算法使用定长的子元路径,然后借助于L-BFGS学习组合路径加权系数;L.A.Galarraga等人于2013年的论文“AMIE:association rulemining under incomplete evidence in ontological knowledge bases”利用关联分析的方法作为支撑提出了AMIE算法,该算法挖掘得到的路径是基于整个异构网节点间关联关系的全局解,它忽视了关联语义所具备的局部特点;除此之外,从特征选择的角度Meng等人于2015年的论文“Discovering meta-paths in large heterogeneous informationnetworks”提出了FSPG算法,它利用前向特征选择为组合路径加入在语义上最相关的子路径,并使用修改后的最小角回归为组合元路径求解加权系数。这些算法为本文的组合路径挖掘算法CMPM的实现提供了参考。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种异构信息网中基于组合元路径的节点相似关系检测方法,所挖掘得到的组合元路径语义更完备,并且仅需要一对参考样本对作为输入。
为达到上述目的,本发明所采用的技术方案如下:
一种异构信息网中基于组合元路径的节点相似关系检测方法,包括如下步骤:
步骤S1:输入异构信息网G、参考样本对(s,t)以及路径粗筛时所用的路径实例数K;其中,s表示源节点,t表示目标节点;
步骤S2:利用经典的YenKSP算法搜索得到K条连接参考样本对(s,t)中的最短路径实例;
步骤S3:映射最短路径实例得到候选元路径集合CP及其对应的路径实例数;
步骤S4:基于HeteSim算法计算候选元路径集合CP约束下节点间关联语义强度;
步骤S5:基于关联语义强度计算信息熵来量化语义的完备性,若语义不完备,更新路径实例数K,回到步骤S2,重新执行步骤S2至步骤S5;
步骤S6:使用假设检验法精筛候选元路径集合,输出描述节点间关联关系的组合元路径;
步骤S7:在步骤S6得到的组合元路径约束下搜索携带相似关联关系的节点对;
步骤S8:输出携带相似关联关系的节点对。
优先地,所述步骤S2包括:
步骤S2.1:利用经典的top-K最短路径算法YenKSP搜索连接参考样本对(s,t)内源节点s和目标节点t的路径实例;
步骤S2.2:选取前K条最短的路径实例P1。
优先地,所述步骤S3包括:
步骤S3.1:映射top-K路径实例P1,得到候选元路径集合CP={Πi,1≤i≤Q},其中,Πi集合中的子候选元路径,Q表示候选元路径的数目;
步骤S3.2:累积计算候选元路径集合中的各子候选元路径所对应的路径实例数作为子候选元路径重要性的判定依据,各子候选元路径及其对应的路径实例数集合记为M={Π1:n1,Π2:n2,...,ΠQ:nQ},其中,ni(1≤i≤Q)表示子候选元路径Πi所对应的路径实例数。
优先地,所述步骤S4包括:
步骤S4.1:利用经典的HeteSim算法计算参考样本对(s,t)在候选元路径集合CP中各子候选元路径约束下节点间的关联语义强度σ(s,t|Πi,G);HeteSim算法下节点间的相似度定义为:
其中,I(.)表示各节点的入邻节点,O(.)表示出邻节点,表示元路径,|Oi(s|R1)|表示s的出邻节点中类型为A1的节点数,|Ij(t|R1)|则表示t的入邻节点中类型为R1的节点数;
步骤S4.2:使用子候选元路径Πi对应路径实例数ni占M中所有实例数的比例作为子候选元路径的加权系数ωi;
步骤S4.3:计算加权的子候选元路径约束下节点间相似度ωi*σ(s,t|Πi,G),用于描述不同路径约束下参考节点对(s,t)内节点间的关联语义强度向量sim。
优先地,所述步骤S5包括:
步骤S5.1:利用作为归一化系数对关联语义强度向量sim进行归一化,并对其内部分量进行由大到小排序;
步骤S5.2:计算当前所有子候选元路径约束下语义强度的信息熵:
步骤S5.3:若由信息熵H描述的关联语义不完备,则更新路径实例数K,回到步骤S2。
优先地,所述步骤S6包括:
步骤S6.1:利用假设检验的方法从归一化排序后的向量sim中选择不同子候选元路径Πi的语义强度数值,累计计算前P条子候选元路径所占信息熵H的比例,同时将Πi加入到路径数组Π;
步骤S6.2:如果步骤S6.1中计算得到的比例小于1-α,则回到步骤S6.1;其中α表示路径精筛的控制系数,其数值越小则精筛得到的组合元路径语义越丰富但复杂度也越高;
步骤S6.3:得到P条语义完备的路径集合Π后,利用M中子候选元路径对应的路径实例数更新各子候选元路径权值w,得到精筛后的组合元路径(Π,w)。
优先地,所述步骤S7包括:
步骤S7.1:以F(s,t)={(Πi,wi),1≤i≤P}表示组合元路径(Π,w)中的子路径,计算参考样本对(s,t)在组合元路径(Π,w)约束下的关联语义强度向量:
f(s,t)={ωiσ((x,y)|Πi),1≤i≤P};
其中,(x,y)表示与参考样本对(s,t)携带相似关联关系的节点对,x表示节点对的源节点,y表示节点对的目标节点,P表示元路径约束;
步骤S7.2:同理,在组合元路径(Π,w)约束下计算异构网中其他节点对的关联语义强度向量f(x,y)={wiσ(x,y)|Πi,1≤i≤P},其中,x表示节点对的源结点,y表示节点对的目标结点,P表示元路径约束;
步骤S7.3:利用以下公式搜索与参考样本对(s,t)携带相似关联关系的节点对(x,y):
Rsim((x,y)|(s,t))=1/Euc(f(x,y),f(s,t));
其中,Euc表示欧氏距离。
本发明提供的异构信息网中基于组合元路径的节点相似关系检测方法,包括:构造异构信息网;参考样本对选取;搜索连接参考样本对源-目标节点的路径实例;映射路径实例得到候选元路径;基于候选元路径计算不同路径约束下节点间关联关系强度;计算信息熵来进行候选元路径筛选,最后得到描述节点间关联关系的组合元路径。本发明针对异构信息网语义丰富的特点,提出组合元路径的概念来描述不同节点之间的关联关系,进而用来度量不同节点对之间关联关系的相似性,适用于异构信息网中携带相似关联关系的节点对搜索任务。
与现有技术相比,本发明具有如下的有益效果:
1、根据本发明提供的异构信息网中基于组合元路径的节点相似关系检测方法在路径挖掘时仅需要一对参考样本对作为输入即可,免去了数据采集的步骤及其噪声可能带来的不良干扰。
2、根据本发明提供的异构信息网中基于组合元路径的节点相似关系检测方法,通过对路径的合理加权其所携带的语义比传统的方法获得的元路径语义更完备。
附图说明
通过阅读参照以下附图对非限制性实例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的异构信息网中组合元路径挖掘算法的流程图;
图2为以DBLP数据集中(Jiawei Han,Philip S.Yu)携带的优秀学者间合作关系作为参考样本对,使用CMPM算法挖掘得到的描述二者关联关系的组合元路径及其权值;
图3为在ACM和DBLP数据集中,使用CMPM进行路径挖掘时,使用不同的路径实例数对描述关联语义的信息熵的影响,该变化关系可用于更新图1中的参数K。
图4为使用表3给出的基准排序对表1的ACM数据集下的相似节点对进行量化分析后的结果,其中,(a)为利用归一化无序度对表1的相似节点对进行量化分析后的结果,(b)利用精度对表1的相似节点对进行量化分析后的结果,(c)为利用召回率对表1的相似节点对进行量化分析后的结果,(d)为利用F1-Score对表1的相似节点对进行量化分析后的结果;
图5为使用表3给出的基准排序对表2的DBLP数据集下相似节点对进行量化分析后的结果,其中,(a)为利用归一化无序度对表2的相似节点对进行量化分析后的结果,(b)为利用精度对表2的相似节点对进行量化分析后的结果,(c)为利用召回率对表2的相似节点对进行量化分析后的结果,(d)为利用F1-Score对表2的相似节点对进行量化分析后的结果。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本邻域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
实施例
为了更清楚地说明本发明中的技术方案,列举如下的具体的实施例进一步说明:
根据本发明提供的异构信息网中基于组合元路径的节点相似关系检测方法,包括如下步骤:
步骤S1:输入异构信息网G、参考样本对(s,t)以及路径粗筛时所用的路径实例数K;
步骤S2:利用经典的YenKSP算法搜索得到K条连接(s,t)的最短路径实例;利用经典的YenKSP算法搜索得到K条最短路径实例;
所述的步骤S2,具体为:
步骤S21:利用经典的top-K最短路径算法YenKSP搜索连接参考样本对(s,t)内源-目标节点的路径实例;
步骤S22:选取前K条路径实例P1。
步骤S3:映射路径实例得到候选元路径CP及其对应的路径实例数;
所述的步骤S3,具体为:
步骤S31:映射top-K路径实例P1,得到候选元路径集合CP={Πi,1≤i≤Q};
步骤S32:累积计算各子元路径所对应的路径实例数作为子路径重要性的判定依据,候选路径及其对应的路径实例数记为M={Π1:n1,Π2:n2,...,HQ:nQ};
步骤S4:基于HeteSim计算元路径CP约束下节点间关联语义强度;
所述的步骤S4,具体为:
步骤S41:利用经典的HeteSim算法计算参考样本对(s,t)在候选路径集合CP中各子路径约束下节点间的关联语义强度σ(s,t|Πi,G);
步骤S42:使用子路径Πi对应路径实例数ni占M中所有实例数的比例作为子路径的加权系数ωi;
步骤S43:计算加权的路径约束下节点间相似度ωi*σ(s,t|Πi,G),用于描述不同路径约束下参考节点对(s,t)内节点间的关联语义强度向量sim;
步骤S5:基于关联语义强度计算信息熵来量化语义完备性的,若语义不完备,更新K,回到步骤S2;
所述的步骤S5,具体为:
步骤S51:利用对关联语义强度向量sim进行归一化并递减排序;
步骤S52:计算当前所有子路径约束下语义强度的信息熵
步骤S53:若由信息熵H描述的关联语义不完备,则更新路径实例数K,回到步骤2;
步骤S6:使用假设检验法精筛候选元路径,输出描述节点间关联关系的组合元路径;
所述的步骤S6,具体为:
步骤S61:利用假设检验的方法从归一化排序后的向量sim中选择不同元路径Πi的语义强度数值,累计计算前P条路径所占信息熵H的比例,同时将Πi加入到路径数组Π;
步骤S62:如果上述比例小于1-α,则重复步骤6.1;
步骤S63:得到P条语义完备的路径集合Π后,利用M中子路径对应的路径实例数更新各子路径权值w,得到精筛后的组合元路径(Π,w);
步骤S7:在上述组合元路径约束下搜索携带相似关联关系的节点对;
所述的步骤S7,具体为:
步骤S71:以F(s,t)={(Πi,wi),1≤i≤P}表示组合元路径(Π,w)的子路径,利用Hete计算参考样本对在其约束下的关联语义强度向量f(s,t)={ωiσ((x,y)|Πi),1≤i≤P};
步骤S72:同理,在组合路径约束下计算异构网中其他节点对的关联语义强度向量f(x,y)={wiσ(x,y)|Πi,1≤i≤P};
步骤S73:利用以下公式搜索与(s,t)携带相似关联关系的节点对(x,y):
Rsim((x,y)|(s,t))=1/Euc(f(x,y),f(x,t))
步骤S8:输出携带相似关联关系的节点对。
为使本实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图对本实施例进行详细描述。
如图1所示,本实施例提供的基于组合元路径挖掘的节点相似关系检测方法,包括如下步骤:
步骤S1:输入异构信息网G、参考样本对(s,t)以及路径粗筛时所用的路径实例数K;
步骤S2:利用经典的YenKSP算法搜索得到K条最短路径实例。该算法利用最短路径算法搜索得到连接参考样本对(s,t)内源目标节点的top-K最短路径实例P1;
步骤S3:映射路径示例得到候选元路径集合CP={Πi,1≤i≤Q},其所对应的路径实例数为M={Π1:n1,Π2:n2,...,ΠQ:nQ}对应的键值;
步骤S4:基于HeteSim计算参考样本对(s,t)在候选路径集合CP中各子路径约束下节点间的相似度σ(s,t|Πi,G),然后使用子路径Πi对应路径实例数ni占M中所有实例数的比例作为子路径的加权系数ωi,同时存放ωi*σ(s,t|Πi,G)到参考节点对(s,t)内节点间的关联语义强度向量sim;
步骤S5:利用对关联语义强度数值sim进行归一化并递减排序,计算当前所有子路径约束下语义强度的信息熵若由信息熵描述的关联语义不完备,则更新路径实例数K,回到步骤S2;
步骤S6:利用假设检验的方法从归一化排序后的向量sim中选择不同元路径Πi的语义强度数值,累计计算前P条路径所占信息熵H的比例,同时将Πi加入到路径数组Π。如果上述比例小于1-α,则回到步骤S6.1。得到P条语义完备的路径集合Π后,利用M中子路径对应的路径实例数更新各子路径权值w,得到精筛后的组合元路径(Π,w);
步骤S7:以F(s,t)={(Πi,wi),1≤i≤P}表示组合元路径(Π,w)的子路径,利用Hete计算参考样本对在其约束下的关联语义强度向量f(s,t)={ωiσ((x,y)|Πi),1≤i≤P}以及在组合路径约束下计算异构网中其他节点对的关联语义强度向量f(x,y)={wiσ(x,y)|Πi,1≤i≤P}。然后,利用Rsim((x,y)|(s,t))=1/Euc(f(x,y),f(x,t))搜索与(s,t)携带相似关联关系的节点对(x,y);
步骤S8:输出携带相似关联关系的节点对。
本实施例的有效性可以通过下面的仿真实验来进一步说明。需要说明的是,实验中应用的参数不影响本发明的一般性。
1)仿真条件:
CPU Inteli7-3770S 3.10GHz,RAM 16.00GB,操作系统Windows 10,仿真程序编写语言Python 2.7。
2)仿真内容:
在两个真实网络上进行实验来评估算法的效率和效果。两个真实网络均来自于Arnetminer上归档于2016年的ACM与DBLP数据集。两种数据集分别包含230万、320万篇论文,预处理时滤除2005年及其以前的论文数据,并只保留数据挖掘、数据库领域最主要的会议所包含的论文,最终构造的两种异构信息网各自包含16360篇以及24332篇论文信息。使用的参考样本对为(Jiawei Han,Phillip S.Yu)所携带的学者间相似关系以及(JiaweiHan,SIGKDD)携带的学者参加学术会议的关联关系。最后,利用谷歌参考基准,使用归一化无序度、精度、召回率、F1-Score来对结果进行量化分析。
仿真实验在DBLP数据集上基于参考样本对(Jiawei Han,Phillip S.Yu)搜索得到的组合元路径及其权值如图2所示。在ACM与DBLP数据集上,由(Jiawei Han,Phillip S.Yu)对应的组合元路径约束下携带相似关联关系的搜索结果如表1、表2所示。对应的,利用归一化无序度、精度、召回率、F1-Score量化分析的结果如图4、图5所示。(Jiawei Han,SIGKDD)所对应的学者参加学术会议的关联关系对应的搜索及标准化折扣累计增益(normalizeddiscounted cumulative gain,nDCG)数值结果如表4所示。图4(a)与图5(a)给出的归一化无序度度量结果表明CMPM算法所生产的组合元路径相比于先验路径以及简单组合路径能更好的描述参考样本对(Jiawei Han,Philip Yu)所表达的学者间相似关系,另外图中精度、召回率、F1-Score量化分析的结果除了同样揭示了归一化无序度所反映出的CMPM路径生成算法的可靠性之外,它们还表明简单组合元路径下最靠前的几条搜索结果与CMPM对应的组合路径下的结果接近,这意味着先验知识下的简单组合路径所携带的语义确实可以捕捉一部分节点间的关联语义,但是它在语义捕捉的深度上要明显弱于CMPM算法。
本实施例提供的异构信息网中基于组合元路径的节点相似关系检测方法,可用于社交网络中携带相似关联关系的节点对发现。本实施例基于学术合作关系异构信息网挖掘相似学者间的合作关系以及学者参加的学术会议间的关联关系,然后基于描述此关联关系的组合路径进行相似关系的节点对搜索。
本实施例中:
表1以ACM数据集中(Jiawei Han,Philip S.Yu)携带的学者间相似关系作为参考样本对,使用CMPM算法挖掘得到的组合元路径进行携带相似关联关系的节点对搜索排名结果(表中列出的是目标结点,源结点均为Jiawei Han,同时也列出了在先验元路径APA、APTPA、APCPA和先验组合元路径下的搜索结果作为对比;
表2以DBLP数据集中(Jiawei Han,Philip S.Yu)携带的学者间相似关系作为参考样本对,使用CMPM算法挖掘得到的组合元路径进行携带相似关联关系的节点对搜索结果(表中列出的是目标结点,源结点均为Jiawei Han),同时也列出了在先验元路径下的搜索结果作为对比;
表3以(Jiawei Han,Philip Yu)所携带的学者间相似关系为参考,从谷歌学术找到数据挖掘领域与Jiawei Han存在关联的学者近年论文发引用量、h因子、i10因子及谷歌给出的合作关系排名数据组成特征向量,以欧式距离计算得到基准参考样本,用于表1、表2搜索结果的评估;
表4以ACM和DBLP数据集中(Jiawei Han,SIGKDD)携带的学者及其参加学术会议间的关系作为参考样本对,使用CMPM算法挖掘得到的组合元路径进行携带相似关联关系的节点对搜,表中列出的是会议名,而源结点均为Jiawei Han。
表1
表2
表3
表4
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本邻域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (7)
1.一种异构信息网中基于组合元路径的节点相似关系检测方法,其特征在于,包括如下步骤:
步骤S1:输入异构信息网G、参考样本对(s,t)以及路径粗筛时所用的路径实例数K;其中,s表示源节点,t表示目标节点;
步骤S2:利用YenKSP算法搜索得到K条连接参考样本对(s,t)中的最短路径实例;
步骤S3:映射最短路径实例得到候选元路径集合CP及其对应的路径实例数;
步骤S4:基于HeteSim算法计算候选元路径集合CP约束下节点间关联语义强度;
步骤S5:基于关联语义强度计算信息熵来量化语义的完备性,若语义不完备,更新路径实例数K,回到步骤S2,重新执行步骤S2至步骤S5;
步骤S6:使用假设检验法精筛候选元路径集合,输出描述节点间关联关系的组合元路径;
步骤S7:在步骤S6得到的组合元路径约束下搜索携带相似关联关系的节点对;
步骤S8:输出携带相似关联关系的节点对。
2.根据权利要求1所述的异构信息网中基于组合元路径的节点相似关系检测方法,其特征在于,所述步骤S2包括:
步骤S2.1:利用经典的top-K最短路径搜索算法YenKSP搜索连接参考样本对(s,t)内源节点s和目标节点t的路径实例;
步骤S2.2:选取前K条最短的路径实例P1。
3.根据权利要求2所述的异构信息网中基于组合元路径的节点相似关系检测方法,其特征在于,所述步骤S3包括:
步骤S3.1:映射top-K路径实例P1,得到候选元路径集合CP={Πi,1≤i≤Q},其中,Πi表示集合中的子候选元路径,Q表示候选元路径的数目;
步骤S3.2:累积计算候选元路径集合中的各子候选元路径所对应的路径实例数作为子候选元路径重要性的判定依据,各子候选元路径及其对应的路径实例数集合记为M={Π1∶n1,Π2∶n2,...,ΠQ∶nQ},其中,ni(1≤i≤Q)表示子候选元路径Πi所对应的路径实例数。
4.根据权利要求3所述的异构信息网中基于组合元路径的节点相似关系检测方法,其特征在于,所述步骤S4包括:
步骤S4.1:利用经典的HeteSim算法计算参考样本对(s,t)在候选元路径集合CP中各子候选元路径约束下节点间的关联语义强度σ(s,t|Πi,G);HeteSim算法下节点间的相似度定义为:
其中,I(·)表示各节点的入邻节点,O(·)表示出邻节点,表示元路径,|Oi(s|Rl)|表示s的出邻节点中类型为A1的节点数,|Ij(t|Rl)|则表示t的入邻节点中类型为Rl的节点数;
步骤S4.2:使用子候选元路径Πi对应路径实例数ni占M中所有实例数的比例作为子候选元路径的加权系数ωi;
步骤S4.3:计算加权的子候选元路径约束下节点间相似度ωi*σ(s,t|Πi,G),用于描述不同路径约束下参考节点对(s,t)内节点间的关联语义强度向量sim。
5.根据权利要求4所述的异构信息网中基于组合元路径的节点相似关系检测方法,其特征在于,所述步骤S5包括:
步骤S5.1:利用作为归一化系数对关联语义强度sim进行归一化,并对其内部分量进行由大到小排序;
步骤S5.2:计算当前所有子候选元路径约束下语义强度的信息熵:
步骤S5.3:若由信息熵H描述的关联语义不完备,则更新路径实例数K,回到步骤S2。
6.根据权利要求5所述的异构信息网中基于组合元路径的节点相似关系检测方法,其特征在于,所述步骤S6包括:
步骤S6.1:利用假设检验的方法从归一化排序后的向量sim中选择不同子候选元路径Πi的语义强度数值,累计计算前P条子候选元路径所占信息熵H的比例,同时将Πi加入到路径数组Π;
步骤S6.2:如果步骤S6.1中计算得到的比例小于1-α,则回到步骤S6.1;其中α表示路径精筛的控制系数,其数值越小则精筛得到的组合元路径语义越丰富,但复杂度也越高;
步骤S6.3:得到P条语义完备的路径集合Π后,利用M中子候选元路径对应的路径实例数更新各子候选元路径权值w,得到精筛后的组合元路径(Π,w)。
7.根据权利要求6所述的异构信息网中基于组合元路径的节点相似关系检测方法,其特征在于,所述步骤S7包括:
步骤S7.1:以F(s,t)={(Πi,wi),1≤i≤P}表示组合元路径(Π,w)中的子路径,计算参考样本对(s,t)在组合元路径(Π,w)约束下的关联语义强度向量:
f(s,t)={ωiσ((x,y)|Πi),1≤i≤P}
其中,(x,y)表示与参考样本对(s,t)携带相似关联关系的节点对,x表示节点对的源节点,y表示节点对的目标节点,P表示元路径约束;
步骤S7.2:在组合元路径(Π,w)约束下计算异构网中其他节点对的关联语义强度向量f(x,y)={wiσ(x,y)|Πi,1≤i≤P};
步骤S7.3:利用以下公式搜索与参考样本对(s,t)携带相似关联关系的节点对(x,y):
Rsim((x,y)|(s,t))=1/Euc(f(x,y),f(s,t));
其中,Euc表示欧式距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028589.4A CN108304496B (zh) | 2018-01-11 | 2018-01-11 | 异构信息网中基于组合元路径的节点相似关系检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028589.4A CN108304496B (zh) | 2018-01-11 | 2018-01-11 | 异构信息网中基于组合元路径的节点相似关系检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304496A true CN108304496A (zh) | 2018-07-20 |
CN108304496B CN108304496B (zh) | 2022-02-25 |
Family
ID=62868656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810028589.4A Active CN108304496B (zh) | 2018-01-11 | 2018-01-11 | 异构信息网中基于组合元路径的节点相似关系检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304496B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165322A (zh) * | 2018-08-01 | 2019-01-08 | 成都数联铭品科技有限公司 | 基于路径关系的网络特征提取系统及方法 |
CN109635201A (zh) * | 2018-12-18 | 2019-04-16 | 苏州大学 | 异质社交网络跨平台关联用户账户挖掘方法 |
CN109935277A (zh) * | 2019-02-25 | 2019-06-25 | 大连理工大学 | 一种异构网络中基于元路径的异常模体查询方法 |
CN109976271A (zh) * | 2019-03-05 | 2019-07-05 | 河海大学常州校区 | 一种利用信息表征方法计算信息结构有序度的方法 |
CN110609889A (zh) * | 2019-08-30 | 2019-12-24 | 中国科学院计算技术研究所 | 基于学术网络确定对象重要性排名及选择评审专家的方法和系统 |
CN111047453A (zh) * | 2019-12-04 | 2020-04-21 | 兰州交通大学 | 基于高阶张量分解大规模社交网络社区的检测方法及装置 |
CN112380360A (zh) * | 2020-11-12 | 2021-02-19 | 浙江工业大学 | 异构信息网络中基于元路径的节点查询方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559320B (zh) * | 2013-11-21 | 2016-08-24 | 北京邮电大学 | 对异质网络中对象进行排序的方法 |
CN106354862A (zh) * | 2016-09-06 | 2017-01-25 | 山东大学 | 一种异构网络中多维个性化推荐方法 |
US20170111245A1 (en) * | 2015-10-14 | 2017-04-20 | International Business Machines Corporation | Process traces clustering: a heterogeneous information network approach |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
-
2018
- 2018-01-11 CN CN201810028589.4A patent/CN108304496B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559320B (zh) * | 2013-11-21 | 2016-08-24 | 北京邮电大学 | 对异质网络中对象进行排序的方法 |
US20170111245A1 (en) * | 2015-10-14 | 2017-04-20 | International Business Machines Corporation | Process traces clustering: a heterogeneous information network approach |
CN106354862A (zh) * | 2016-09-06 | 2017-01-25 | 山东大学 | 一种异构网络中多维个性化推荐方法 |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165322A (zh) * | 2018-08-01 | 2019-01-08 | 成都数联铭品科技有限公司 | 基于路径关系的网络特征提取系统及方法 |
CN109165322B (zh) * | 2018-08-01 | 2022-04-19 | 成都数联铭品科技有限公司 | 基于路径关系的网络特征提取系统及方法 |
CN109635201A (zh) * | 2018-12-18 | 2019-04-16 | 苏州大学 | 异质社交网络跨平台关联用户账户挖掘方法 |
CN109635201B (zh) * | 2018-12-18 | 2020-07-31 | 苏州大学 | 异质社交网络跨平台关联用户账户挖掘方法 |
CN109935277A (zh) * | 2019-02-25 | 2019-06-25 | 大连理工大学 | 一种异构网络中基于元路径的异常模体查询方法 |
CN109935277B (zh) * | 2019-02-25 | 2022-02-15 | 大连理工大学 | 一种异构网络中基于元路径的异常模体查询方法 |
CN109976271A (zh) * | 2019-03-05 | 2019-07-05 | 河海大学常州校区 | 一种利用信息表征方法计算信息结构有序度的方法 |
CN109976271B (zh) * | 2019-03-05 | 2021-12-10 | 河海大学常州校区 | 一种利用信息表征方法计算信息结构有序度的方法 |
CN110609889A (zh) * | 2019-08-30 | 2019-12-24 | 中国科学院计算技术研究所 | 基于学术网络确定对象重要性排名及选择评审专家的方法和系统 |
CN111047453A (zh) * | 2019-12-04 | 2020-04-21 | 兰州交通大学 | 基于高阶张量分解大规模社交网络社区的检测方法及装置 |
CN112380360A (zh) * | 2020-11-12 | 2021-02-19 | 浙江工业大学 | 异构信息网络中基于元路径的节点查询方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108304496B (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304496A (zh) | 异构信息网中基于组合元路径的节点相似关系检测方法 | |
Zhang et al. | Big data and artificial intelligence based early risk warning system of fire hazard for smart cities | |
Graur et al. | Discovery of 90 Type Ia supernovae among 700 000 Sloan spectra: the Type Ia supernova rate versus galaxy mass and star formation rate at redshift∼ 0.1 | |
US8160982B2 (en) | Method for detecting people of interest from information sources | |
CN106682172A (zh) | 一种基于关键词的文献研究热点推荐方法 | |
CN109446331A (zh) | 一种文本情绪分类模型建立方法及文本情绪分类方法 | |
Acharya et al. | Application of feature selection methods in educational data mining | |
Zhang et al. | Characterizing scientific production and consumption in physics | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
Jian et al. | Integration of deep neural networks and ensemble learning machines for missing well logs estimation | |
Mishra et al. | Optimization of model independent gravitational wave search for binary black hole mergers using machine learning | |
CN112465637B (zh) | 反洗钱智能自动导侦的方法、计算机可读存储介质 | |
Shingari et al. | A review of applications of data mining techniques for prediction of students’ performance in higher education | |
Lytvynenko et al. | Development, validation and testing of the Bayesian network of educational institutions financing | |
Santiago et al. | A methodology for the characterization of flow conductivity through the identification of communities in samples of fractured rocks | |
Brunner et al. | Deep learning in attosecond metrology | |
Najgebauer et al. | The prediction of terrorist threat on the basis of semantic association acquisition and complex network evolution | |
Pourahmad et al. | Service quality assessment in the academic library: Use of hybrid fuzzy expert system | |
Cheng et al. | Optimizing the spatial scale for neighborhood environment characteristics using fine-grained data | |
Dewanti et al. | Development of a Web Based Corruption Case Mapping Using Machine Learning with Artificial Neural Network | |
Zhang et al. | Incentive-punitive risk function with interval valued intuitionistic fuzzy information for outsourced software project risk assessment | |
Ishikawa et al. | Towards construction of an explanation framework for whole processes of data analysis applications: concepts and use cases | |
CN106372671A (zh) | 一种c4.5决策树算法下的连续属性度量选择的增量学习方法 | |
Tripathi et al. | A survey: optimization algorithms in deep learning | |
Zhou et al. | Detecting overlapping community structure with node influence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |