CN109543114A - 异构信息网络链接预测方法、可读存储介质和终端 - Google Patents
异构信息网络链接预测方法、可读存储介质和终端 Download PDFInfo
- Publication number
- CN109543114A CN109543114A CN201811358463.XA CN201811358463A CN109543114A CN 109543114 A CN109543114 A CN 109543114A CN 201811358463 A CN201811358463 A CN 201811358463A CN 109543114 A CN109543114 A CN 109543114A
- Authority
- CN
- China
- Prior art keywords
- label
- sample
- ballot
- training
- information network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000002372 labelling Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims abstract description 50
- 230000013016 learning Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000005295 random walk Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101001006370 Actinobacillus suis Hemolysin Proteins 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种异构信息网络链接预测方法、可读存储介质和终端,所述方法包括:设定待预测异构网络中节点对之间的元路径、元路径的最大长度和每种元路径类型设置对应的类型标签;基于元路径提取节点对之间的异构拓扑特征,构建样本向量,组成样本集;所述样本集包括训练集和测试集;基于所述样本集中的训练集和测试集进行多标记分类学习,得到对应的多标记分类器;采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系进行预测。上述的方案,可以提高异构信息网络链接预测的准确性。
Description
技术领域
本发明属于数据分析技术领域,特别是涉及一种异构信息网络链接预测 方法、可读存储介质和终端。
背景技术
现实世界中的许多复杂系统可以被形式化为网络,节点表示对象,链接 表示对象之间的交互。其中的大多数网络为异构网路,其包含各种类型的对 象和关系,通常由多个子网络构成。例如,在线社交网络Twitter包含关于诸 如用户基本信息、用户位置和用户推特操作的类型的信息,具有发表/回复/ 转发推文、关注/跟随、签到等等的类型的信息。
作为链接挖掘中的关键问题,链接预测旨在基于当前或历史网络预测未 来链接的形成。它具有应用于书目网络、生物网络、社交网络等领域的更广 泛的应用。大多数现有的链接预测方法被设计用于同构信息网络,其节点和 链接是相同的类型。近来,在异构网络中推动链接预测有巨大的兴趣,因为 它具有更广泛的应用前景。
但是,现有技术中的异构网络中链接预测,存在预测准确性低的问题。
发明内容
本发明解决的技术问题是如何提高异构信息网络链接预测的准确性。
为了达到上述目的,本发明提供了一种异构信息网络链接预测方法,所 述方法包括:
设定待预测异构网络中节点对之间的元路径、元路径的最大长度和每种 元路径类型设置对应的类型标签;
基于元路径提取节点对之间的异构拓扑特征,构建样本向量,组成样本 集;所述样本集包括训练集和测试集;
基于所述样本集中的训练集和测试集进行多标记分类学习,得到对应的 多标记分类器;
采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系 进行预测。
可选地,所述基于所述样本集中的训练集和测试集进行多标记分类学习, 得到对应的多标记分类器,包括:
分别从所述训练集中选取与所设置的类型标签中每两个类型标签构成的 标签对对应的训练子集,并对所选取的训练子集分别进行二分类学习,得到 与每个标签对一一对应的多个二分类器;
将所述测试集分别输入训练得到的多个二分类器,计算所述测试集中的 样本对应的实例在各个类型标签上获取的第一投票;
将对应的虚拟标签分别添加进对应的训练子集中的每个样本,得到对应 的类型标签和虚拟标签构成的标签对对应的训练子集,并采用所得到的训练 子集分别训练得到与每个类型标签一一对应的多个辅助二分类器;所述虚拟 标签用于标记与对应的训练子集中的样本相关和不相关的类型标签的分割点;
将所述测试集分别输入训练得到的多个辅助二分类器,计算所述测试集 中的样本对应的实例分别在每个类型标签上获得的第二投票和在虚拟标签上 获取的第三投票;
基于所述测试样本对应的实例在所述每个类型标签上获得的第一投票和 第二投票及在虚拟标签上获取的第三投票,确定最终的多标记分类器。
可选地,所述节点对之间的异构拓扑特征,包括路径数特征和随机游走 特征。
可选地,所述测试集中的样本对应的实例在每个类型标签上获得的第一 投票采用如下的公式计算得到:
其中,ζ(xi,lj)表示实例xi在标签lj上获得的投票,Clfjk表示标签对(lj,lk)对应的二分类器,表示在训练 子集中正确地将样本预测为负例,当表示在训练子集中正确地将样 本预测为正例。
可选地,采用如下的公式计算所述测试集中的样本对应的实例在每个类 型标签上获得的第二投票:
其中,ζ(xi,lj)表示实例xi在标签lj上获得的尚未更新的投票,Clfjk表示标 签对(lj,lk)对应的二分类器,表示表示在训练子集中正确地将样本预 测为正例。
可选地,采用如下的公式计算所述测试集中的样本对应的实例在每个类 型标签上获得的第二投票:
其中,ζ*(xi,ls)表示实例xi在虚拟标签ls上获得的投票,表示在 训练子集中正确地将样本预测为负例。。
可选地,所述基于所述测试样本对应的实例在所述每个类型标签上获得 的第一投票和第二投票及在虚拟标签上获取的第三投票,确定最终的多标记 分类器,包括:
h(x)={lj|ζ*(x,lj)>ζ*(x,ls)}
其中,h(x)表示所述多标记分类器,lj表示第j个类型标签,ζ*(x,lj)表示 实例xi在标签lj上获得的最终投票,ζ*(x,ls)表示实例xi在虚拟标签ls上获得的 投票。
可选地,所述方法还包括:
计算所述标签对之间的依赖分数并输出。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指 令,所述计算机指令运行时执行上述任一项所述的异构信息网络链接预测方 法的步骤。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上 储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机 指令时执行上述任一项所述的异构信息网络链接预测方法的步骤。
与现有技术相比,本发明的有益效果为:
上述的方案,通过基于所述样本集中的训练集和测试集进行多标记分类 学习,得到对应的多标记分类器,并采用训练得到的多标记分类器对待预测 异构网络中节点之间的未知关系进行预测,不仅仅可以对节点之间的直接链 接进行预测,还可以对节点之间的其他关系,即元路径进行预测,使得实例 具有多个而不再是唯一的类型标签,故可以提高异构网络链接预测的准确性。
进一步地,通过计算所述标签对之间的依赖分数并输出,可以提供关于 如何形成新链接的建议,帮助探索复杂网络中链接和关系形成的规律,方便 实用。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中 所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性 的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种异构信息网络链接预测方法的流程示意图;
图2是本发明实施例的一种多标记分类器的训练方法的流程示意图;
图3示出了本发明实施例中的一种异构信息网络链接预测装置的结构示 意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。 本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释 在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如 果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
如背景技术所述,异构网路的链接预测存在以下的问题:
(1)拓扑特征的表示:由于对象和链接的异质性,在同构网络中使用的拓 扑特征不是直接可用的。两个节点的邻居可以具有不同的类型,所以共同邻 居的数量不能表示这种异质性。
(2)不同关系之间的相互依赖性:在本发明中,关系不仅指的是显式链接, 而且指的是间接连接。对不同类型的关系之间的相关性建模是重要的,因为 它们可能彼此影响。例如,在共同作者网络中,两个学者可以通过参加同一 会议(另一种类型的关系)来建立共同作者(一种关系类型)。
单独研究网络的同构投影的简单方法避免了第一个问题,但是会丢失信 息,因为它忽略了类型之间的依赖性模式。虽然异质性带来了很多困难来链 接预测,它也提供丰富和有价值的信息,了解链接形成的潜在机制。链接预 测的研究遵循常见的意义,即几个链接可以随机生成,但大多数链接是在潜 在模式下生成的。目标链接的信息取决于目标链接的节点之间的潜在关系。
若不仅仅考虑预测节点之间的直接链接,而且还考虑预测节点之间的其 他关系,即元路径,传统的二分类监督方法将不再适用,需要使用多标记学 习。
真实世界的对象往往并不只具有唯一的语义,而是可能具有多义性的, 例如一张图片可能传达了多种信息如“蓝天”、“小河”、“牛”以及“炊烟”等等。 多义性对象由于不再具有唯一的语义,这就使得单一语义的传统监督学习框 架难以取得好的效果。
本发明的技术方案通过基于所述样本集中的训练集和测试集进行多标记 分类学习,得到对应的多标记分类器,并采用训练得到的多标记分类器对待 预测异构网络中节点之间的未知关系进行预测,不仅仅可以对节点之间的直 接链接进行预测,还可以对节点之间的其他关系,即元路径进行预测,使得 实例具有多个而不再是唯一的类型标签,故可以提高异构网络链接预测的准 确性。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合 附图对本发明的具体实施例做详细的说明。
图1是本发明实施例的一种异构信息网络链接预测方法的流程示意图。 参见图1,一种异构信息网络链接预测方法,具体可以包括如下的步骤:
步骤S101:设定待预测异构网络中节点对之间的元路径、元路径的最大 长度和每种元路径类型设置对应的类型标签。
在具体实施中,所述元路径为异构网络中从一个节点通过一系列的类型 连接达到另一节点的路径。例如,元路径Pk=(V1E1V2E2...En-1Vn)表示节点V1通过 一系列类型链接Ei(i=1,2,...,n-1)到达节点Vn的路径,可以记为
为了简化,本发明实施例中使用对应节点的英文名称的第一个大写字母 进行表示。例如,在DBLP合著者网络中,P表示论文,A表示作者,T表示 主题,V表示会议,U表示用户,则用于描述作者间的引用关系的元路径, 可以简写为“APPA”。
在具体实施中,所述待预测异构网络中节点对之间的元路径、元路径的 最大长度和每种元路径类型设置对应的类型标签,本领域的技术人员均可以 根据实际的需要进行设置,在此不做限制。
步骤S102:基于元路径提取节点对之间的异构拓扑特征,构建样本向量, 组成样本集。
在本发明一实施例中,所述节点对之间的异构拓扑特征,包括路径数特 征和随机游走特征。其中,路径数表示节点对之间的对应类型的元路径的总 数量,节点之间的随机游走特征与元路径类型一一对应,即每种元路径类型 分别具有一个对应的随机游走特征,具体可以采用如下的公式计算得到:
其中,表示起点为vi终点为节点vj的第k种元路径的数量, 表示起点是vi的第k种元路径的总数量
通过上述的描述可知,当待预测异构网路中的元路径类型为K,且节点 对之间每张元路径可以被量化为路径数和随机游走两个异构拓扑特征时,则 每个节点对可以被2K个异构拓扑特征描述。换言之,每个节点对采用对应的 2K维空间向量进行描述,该2K维空间向量称为该节点对对应的实例。
假设X表示2K维实例空间,L={l1,l2,...,lK}表示标签空间,其中包含K种 元路径,则基于元路径提取节点对之间的异构拓扑特征所构建的样本向量组 成的样本集可以分为包括多标记训练集和多标记测试集。其中, D={(xi,Li)|1≤i≤m}表示多标记训练集,m表示多标记训练集中的样本数, (xi,Li)是一个多标记样本,其中为描述节点对(vi,vj)的2K维特 征向量,xi中的每一维可以是异构特征或同构特征,是xi的标签集; T={(xi,Li)|m+1≤i≤n}是多标记测试集,n表示样本集中的样本总数。
步骤S103:基于所述样本集中的训练集和测试集进行多标记分类学习, 得到对应的多标记分类器。
在具体实施中,当构建完成对应的训练集和测试集时,便可以采用所得 到的多标记训练集D进行多标记分类学习训练得到的多标记分类器,并对训 练得到的多标记分类器采用所述多标记测试集T进行优化,具体请参见图2中 的详细介绍,不再赘述。
步骤S104:采用训练得到的多标记分类器对待预测异构网络中节点之间 的未知关系进行预测。
在具体实施中,当训练得到的对应的多标记分类器时,便可以使用所得 到的多标记分类器对待预测网络的未知部分进行预测,即对待预测网络中未 连接的目标节点对之间的未知连接关系进行预测,得到预测后的新网络图。
在本发明一实施例中,所述方法还可以包括:
步骤S105:计算所述标签对之间的依赖分数并输出。
在本发明一实施例中,通过采用卡方检验工具(Chi-Square Test工具)可 以计算所述标签对之间的依赖分数并输出,可以为用户提供关于如何形成节 点对之间新链接的建议,帮助探索复杂网络中链接和关系形成的规律,方便 实用。
图2是本发明实施例的一种多标记分类器的训练方法的流程示意图。参 见图2,一种多标记分类器的训练方法,具体可以包括如下的步骤:
步骤S201:分别从所述训练集中选取与所设置的类型标签中每两个类型 标签构成的标签对对应的训练子集,并对所选取的训练子集分别进行二分类 学习,得到与每个标签对一一对应的多个二分类器。
在具体实施中,对于标签空间L={l1,l2,...,lK},其中的每两个类型标签构 成的标签对对应的训练子集中的样本为从多标记训练集D中选取,具体可以 定义为:
Djk={(xi,ψ(Li,lj,lk))|φ(Li,lj)≠φ(Li,lk)} (2)
其中,Djk表示标签对(lj,lk)对应的训练子集。
在具体实施中,当从多标记训练集D中选取标签对(lj,lk)对应的训练 子集Djk时便可以采用分类学习算法对二分类学习,得到与每个标签对(lj,lk) 一一对应的多个二分类器。
步骤S202:将所述测试集分别输入训练得到的多个二分类器,计算所述 测试集中的样本对应的实例在各个类型标签上获取的第一投票。
在本发明一实施例中,所述测试集中的样本对应的实例在各个类型标签 上获取的第一投票采用如下的公式计算得到:
其中,ζ(xi,lj)表示实例xi在标签lj上获得的投票,Clfjk表示标签对(lj,lk)对 应的二分类器,表示在训练子集中正确地将样本预测为负例,当 表示在训练子集中正确地将样本预测为正例。
步骤S203:将对应的虚拟标签分别添加进对应的训练子集中的每个样本, 得到对应的类型标签和虚拟标签构成的标签对对应的训练子集,并采用所得 到的训练子集分别训练得到与每个类型标签一一对应的多个辅助二分类器。
在具体实施中,将一个虚拟标签ls添加进每个样本,用于标记与xi相关 及不相关的标签的分割点,针对每个新的标签对(lj,ls)分别得到的对应的训练 集Dis,并采用对应的二分类学习算法对每个新的标签对(lj,ls)分别得到的对应 的训练集Djs分别进行学习,得到对应的K个辅助二分类器Clfjs。
步骤S204:将所述测试集分别输入训练得到的多个辅助二分类器,计算 所述测试集中的样本对应的实例分别在每个类型标签上获得的第二投票和在 虚拟标签上获取的第三投票。
在本发明一实施例中,采用如下的公式计算所述测试集中的样本对应的 实例在每个类型标签上获得的第二投票:
其中,ζ(xi,lj)表示实例xi在标签lj上获得的尚未更新的投票,Clfjk表示标 签对(lj,lk)对应的二分类器,表示表示在训练子集中正确地将样本预 测为正例。
在本发明一实施例中,采用如下的公式计算所述测试集中的样本对应的 实例在每个类型标签上获得的第三投票:
其中,ζ*(xi,ls)表示实例xi在虚拟标签ls上获得的投票,表示在 训练子集中正确地将样本预测为负例。
步骤S205:基于所述测试样本对应的实例在所述每个类型标签上获得的 第一投票和第二投票及在虚拟标签上获取的第三投票,确定最终的多标记分 类器。
在本发明一实施例中,所确定最终的多标记分类器可以表示为:
h(x)={lj|ζ*(x,lj)>ζ*(x,ls)} (8)
其中,h(x)表示所述多标记分类器,lj表示第j个类型标签,ζ*(x,lj)表示 实例xi在标签lj上获得的最终投票,ζ*(x,ls)表示实例xi在虚拟标签ls上获得的 投票。
上述对本发明实施例中的异构信息网络链接预测方法进行了详细的描述, 下面将对上述的方法对应的装置进行介绍。
图3示出了本发明实施例中的一种异构信息网络链接预测装置的结构示 意图。参见图3,一种异构信息网络链接预测装置30可以包括设定单元301、 构建单元302、分类学习单元303和预测单元304,其中:
所述设定单元301,适于设定待预测异构网络中节点对之间的元路径、元 路径的最大长度和每种元路径类型设置对应的类型标签。
所述构建单元302,适于基于元路径提取节点对之间的异构拓扑特征,构 建样本向量,组成样本集;所述样本集包括训练集和测试集。
所述分类学习单元303,适于基于所述样本集中的训练集和测试集进行多 标记分类学习,得到对应的多标记分类器。
所述预测单元304,适于采用训练得到的多标记分类器对待预测异构网络 中节点之间的未知关系进行预测。
在具体实施中,所述分类学习单元303,适于分别从所述训练集中选取与 所设置的类型标签中每两个类型标签构成的标签对对应的训练子集,并对所 选取的训练子集分别进行二分类学习,得到与每个标签对一一对应的多个二 分类器;将所述测试集分别输入训练得到的多个二分类器,计算所述测试集 中的样本对应的实例在各个类型标签上获取的第一投票;将对应的虚拟标签 分别添加进对应的训练子集中的每个样本,得到对应的类型标签和虚拟标签 构成的标签对对应的训练子集,并采用所得到的训练子集分别训练得到与每 个类型标签一一对应的多个辅助二分类器;所述虚拟标签用于标记与对应的 训练子集中的样本相关和不相关的类型标签的分割点;将所述测试集分别输 入训练得到的多个辅助二分类器,计算所述测试集中的样本对应的实例分别 在每个类型标签上获得的第二投票和在虚拟标签上获取的第三投票;基于所 述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票及 在虚拟标签上获取的第三投票,确定最终的多标记分类器。
在具体实施中,所述节点对之间的异构拓扑特征,包括路径数特征和随 机游走特征。
在本发明一实施例中,所述分类学习单元303,适于采用如下的公式计算 得到所述测试集中的样本对应的实例在每个类型标签上获得的第一投票:
其中,ζ(xi,lj)表示实例xi在标签lj上获得的投票,Clfjk表示标签对(lj,lk)对应的二分类器,表示在训练 子集中正确地将样本预测为负例,当表示在训练子集中正确地将样 本预测为正例。
在本发明一实施例中,所述分类学习单元303,适于采用如下的公式计算 所述测试集中的样本对应的实例在每个类型标签上获得的第二投票:
其中,ζ(xi,lj)表示实例xi在标签lj上获得的尚未更新的投票,Clfjk表示标签对(lj,lk)对应的二分类器,表示表示在 训练子集中正确地将样本预测为正例。
在本发明一实施例中,所述分类学习单元303,适于采用如下的公式计算 所述测试集中的样本对应的实例在每个类型标签上获得的第二投票:
其中,ζ*(xi,ls)表示实例xi在虚拟标签ls上获得的 投票,表示在训练子集中正确地将样本预测为负例。
在本发明一实施例中,所述分类学习单元303,适于采用如下的公式基于 所述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票 及在虚拟标签上获取的第三投票,确定最终的多标记分类器:
h(x)={lj|ζ*(x,lj)>ζ*(x,ls)};其中,h(x)表示所述多标记分类器,lj表示第j个类型标签,ζ*(x,lj)表示实例xi在标签lj上获得的最终投票,ζ*(x,ls)表示实例 xi在虚拟标签ls上获得的投票。
在本发明一实施例中,所述装置30还可以包括305,其中:
所述计算输出单元305,适于计算所述标签对之间的依赖分数并输出。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指 令,所述计算机指令运行时执行所述的异构信息网络链接预测方法的步骤。 其中,所述的异构信息网络链接预测方法请参见前述相关部分的介绍,不再 赘述。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上 储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机 指令时执行所述的异构信息网络链接预测方法的步骤。其中,所述的异构信 息网络链接预测方法请参见前述相关部分的介绍,不再赘述。
采用本发明实施例中的上述方案,通过基于所述样本集中的训练集和测 试集进行多标记分类学习,得到对应的多标记分类器,并采用训练得到的多 标记分类器对待预测异构网络中节点之间的未知关系进行预测,不仅仅可以 对节点之间的直接链接进行预测,还可以对节点之间的其他关系,即新类型 的元路径进行预测,故可以提高异构网络链接预测的准确性。
进一步地,通过计算所述标签对之间的依赖分数并输出,可以提供关于 如何形成新链接的建议,帮助探索复杂网络中链接和关系形成的规律,方便 实用。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行 业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明 书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下, 本发明还会有各种变化和改进,本发明要求保护范围由所附的权利要求书、 说明书及其等效物界定。
Claims (10)
1.一种异构信息网络链接预测方法,其特征在于,包括:
设定待预测异构网络中节点对之间的元路径、元路径的最大长度和每种元路径类型设置对应的类型标签;
基于元路径提取节点对之间的异构拓扑特征,构建样本向量,组成样本集;所述样本集包括训练集和测试集;
基于所述样本集中的训练集和测试集进行多标记分类学习,得到对应的多标记分类器;
采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系进行预测。
2.根据权利要求1所述的异构信息网络链接预测方法,其特征在于,所述基于所述样本集中的训练集和测试集进行多标记分类学习,得到对应的多标记分类器,包括:
分别从所述训练集中选取与所设置的类型标签中每两个类型标签构成的标签对对应的训练子集,并对所选取的训练子集分别进行二分类学习,得到与每个标签对一一对应的多个二分类器;
将所述测试集分别输入训练得到的多个二分类器,计算所述测试集中的样本对应的实例在各个类型标签上获取的第一投票;
将对应的虚拟标签分别添加进对应的训练子集中的每个样本,得到对应的类型标签和虚拟标签构成的标签对对应的训练子集,并采用所得到的训练子集分别训练得到与每个类型标签一一对应的多个辅助二分类器;所述虚拟标签用于标记与对应的训练子集中的样本相关和不相关的类型标签的分割点;
将所述测试集分别输入训练得到的多个辅助二分类器,计算所述测试集中的样本对应的实例分别在每个类型标签上获得的第二投票和在虚拟标签上获取的第三投票;
基于所述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票及在虚拟标签上获取的第三投票,确定最终的多标记分类器。
3.根据权利要求2所述的异构信息网络链接预测方法,其特征在于,所述节点对之间的异构拓扑特征,包括路径数特征和随机游走特征。
4.根据权利要求3所述的异构信息网络链接预测方法,其特征在于,所述测试集中的样本对应的实例在每个类型标签上获得的第一投票采用如下的公式计算得到:
其中,ζ(xi,lj)表示实例xi在标签lj上获得的投票,Clfjk表示标签对(lj,lk)对应的二分类器,表示在训练子集中正确地将样本预测为负例,当表示在训练子集中正确地将样本预测为正例。
5.根据权利要求4所述的异构信息网络链接预测方法,其特征在于,采用如下的公式计算所述测试集中的样本对应的实例在每个类型标签上获得的第二投票:
其中,ζ(xi,lj)表示实例xi在标签lj上获得的尚未更新的投票,Clfjk表示标签对(lj,lk)对应的二分类器,表示在训练子集中正确地将样本预测为正例。
6.根据权利要求5所述的异构信息网络链接预测方法,其特征在于,采用如下的公式计算所述测试集中的样本对应的实例在每个类型标签上获得的第二投票:
其中,ζ*(xi,ls)表示实例xi在虚拟标签ls上获得的投票,表示在训练子集中正确地将样本预测为负例。
7.根据权利要求3-6任一项所述的异构信息网络链接预测方法,其特征在于,所述基于所述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票及在虚拟标签上获取的第三投票,确定最终的多标记分类器,包括:
h(x)={lj|ζ*(x,lj)>ζ*(x,ls)}
其中,h(x)表示所述多标记分类器,lj表示第j个类型标签,ζ*(x,lj)表示实例xi在标签lj上获得的最终投票,ζ*(x,ls)表示实例xi在虚拟标签ls上获得的投票。
8.根据权利要求3-6任一项所述的异构信息网络链接预测方法,其特征在于,还包括:
计算所述标签对之间的依赖分数并输出。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至8任一项所述的异构信息网络链接预测方法的步骤。
10.一种终端,其特征在于,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的异构信息网络链接预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811358463.XA CN109543114A (zh) | 2018-11-14 | 2018-11-14 | 异构信息网络链接预测方法、可读存储介质和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811358463.XA CN109543114A (zh) | 2018-11-14 | 2018-11-14 | 异构信息网络链接预测方法、可读存储介质和终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543114A true CN109543114A (zh) | 2019-03-29 |
Family
ID=65847394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811358463.XA Pending CN109543114A (zh) | 2018-11-14 | 2018-11-14 | 异构信息网络链接预测方法、可读存储介质和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543114A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019653A (zh) * | 2019-04-08 | 2019-07-16 | 北京航空航天大学 | 一种融合文本和标签网络的社交内容表征方法和系统 |
CN110677284A (zh) * | 2019-09-24 | 2020-01-10 | 北京工商大学 | 一种基于元路径的异构网络链路预测的方法 |
CN113297500A (zh) * | 2021-06-23 | 2021-08-24 | 哈尔滨工程大学 | 一种社交网络孤立节点链接预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893637A (zh) * | 2016-06-24 | 2016-08-24 | 四川大学 | 大规模微博异构信息网络中的链接预测方法 |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
CN107145527A (zh) * | 2017-04-14 | 2017-09-08 | 东南大学 | 对齐异构社交网络中基于元路径的链路预测方法 |
-
2018
- 2018-11-14 CN CN201811358463.XA patent/CN109543114A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893637A (zh) * | 2016-06-24 | 2016-08-24 | 四川大学 | 大规模微博异构信息网络中的链接预测方法 |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
CN107145527A (zh) * | 2017-04-14 | 2017-09-08 | 东南大学 | 对齐异构社交网络中基于元路径的链路预测方法 |
Non-Patent Citations (2)
Title |
---|
KE-JIA CHEN等: "On Link Formation in Heterogeneous Information Networks: A View Based on Multi-Label Learning", 《ASONAM "17: PROCEEDINGS OF THE 2017 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING 2017》 * |
MIN-LING ZHANG等: "A Review on Multi-Label Learning Algorithms", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019653A (zh) * | 2019-04-08 | 2019-07-16 | 北京航空航天大学 | 一种融合文本和标签网络的社交内容表征方法和系统 |
CN110019653B (zh) * | 2019-04-08 | 2021-07-02 | 北京航空航天大学 | 一种融合文本和标签网络的社交内容表征方法和系统 |
CN110677284A (zh) * | 2019-09-24 | 2020-01-10 | 北京工商大学 | 一种基于元路径的异构网络链路预测的方法 |
CN110677284B (zh) * | 2019-09-24 | 2022-06-17 | 北京工商大学 | 一种基于元路径的异构网络链路预测的方法 |
CN113297500A (zh) * | 2021-06-23 | 2021-08-24 | 哈尔滨工程大学 | 一种社交网络孤立节点链接预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Deep information fusion-driven POI scheduling for mobile social networks | |
Yao et al. | Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model | |
Yu et al. | Geo-friends recommendation in gps-based cyber-physical social network | |
CN108073677A (zh) | 一种基于人工智能的多级文本多标签分类方法及系统 | |
Oliveira et al. | Evaluation of two methods for identifying trip purpose in GPS-based household travel surveys | |
CN106326585A (zh) | 基于贝叶斯网络推理的预测分析方法以及装置 | |
CN107391542A (zh) | 一种基于文件知识图谱的开源软件社区专家推荐方法 | |
CN109543114A (zh) | 异构信息网络链接预测方法、可读存储介质和终端 | |
CN110347932A (zh) | 一种基于深度学习的跨网络用户对齐方法 | |
CN108304380A (zh) | 一种融合学术影响力的学者人名消除歧义的方法 | |
Hu et al. | A bidirectional graph neural network for traveling salesman problems on arbitrary symmetric graphs | |
Wei et al. | STGSA: A novel spatial-temporal graph synchronous aggregation model for traffic prediction | |
Wan et al. | Identification of important nodes in multilayer heterogeneous networks incorporating multirelational information | |
Zhou et al. | Betweenness centrality-based community adaptive network representation for link prediction | |
CN115858899A (zh) | 一种基于多标签影响的网络事件标签流行度预测方法 | |
CN109522954A (zh) | 异构信息网络链接预测装置 | |
Azaouzi et al. | An evidential influence-based label propagation algorithm for distributed community detection in social networks | |
CN107807919A (zh) | 一种利用循环随机游走网络进行微博情感分类预测的方法 | |
Hu et al. | Decoupling long-and short-term patterns in spatiotemporal inference | |
Wang et al. | Abnormal trajectory detection based on geospatial consistent modeling | |
Xiang et al. | Reconstructing signed networks via Ising dynamics | |
Chen et al. | CSGCL: community-strength-enhanced graph contrastive learning | |
CN108228782A (zh) | 一种基于深度学习的隐含关系发现方法 | |
Fang et al. | Signed network label propagation algorithm with structural balance degree for community detection | |
Berger-Wolf et al. | Dynamic community identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190329 |
|
RJ01 | Rejection of invention patent application after publication |