CN109543114A

CN109543114A - 异构信息网络链接预测方法、可读存储介质和终端

Info

Publication number: CN109543114A
Application number: CN201811358463.XA
Authority: CN
Inventors: 陈可佳; 张培
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-03-29

Abstract

一种异构信息网络链接预测方法、可读存储介质和终端，所述方法包括：设定待预测异构网络中节点对之间的元路径、元路径的最大长度和每种元路径类型设置对应的类型标签；基于元路径提取节点对之间的异构拓扑特征，构建样本向量，组成样本集；所述样本集包括训练集和测试集；基于所述样本集中的训练集和测试集进行多标记分类学习，得到对应的多标记分类器；采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系进行预测。上述的方案，可以提高异构信息网络链接预测的准确性。

Description

异构信息网络链接预测方法、可读存储介质和终端

技术领域

本发明属于数据分析技术领域，特别是涉及一种异构信息网络链接预测方法、可读存储介质和终端。

背景技术

现实世界中的许多复杂系统可以被形式化为网络，节点表示对象，链接表示对象之间的交互。其中的大多数网络为异构网路，其包含各种类型的对象和关系，通常由多个子网络构成。例如，在线社交网络Twitter包含关于诸如用户基本信息、用户位置和用户推特操作的类型的信息，具有发表/回复/ 转发推文、关注/跟随、签到等等的类型的信息。

作为链接挖掘中的关键问题，链接预测旨在基于当前或历史网络预测未来链接的形成。它具有应用于书目网络、生物网络、社交网络等领域的更广泛的应用。大多数现有的链接预测方法被设计用于同构信息网络，其节点和链接是相同的类型。近来，在异构网络中推动链接预测有巨大的兴趣，因为它具有更广泛的应用前景。

但是，现有技术中的异构网络中链接预测，存在预测准确性低的问题。

发明内容

本发明解决的技术问题是如何提高异构信息网络链接预测的准确性。

为了达到上述目的，本发明提供了一种异构信息网络链接预测方法，所述方法包括：

设定待预测异构网络中节点对之间的元路径、元路径的最大长度和每种元路径类型设置对应的类型标签；

基于元路径提取节点对之间的异构拓扑特征，构建样本向量，组成样本集；所述样本集包括训练集和测试集；

基于所述样本集中的训练集和测试集进行多标记分类学习，得到对应的多标记分类器；

采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系进行预测。

可选地，所述基于所述样本集中的训练集和测试集进行多标记分类学习，得到对应的多标记分类器，包括：

分别从所述训练集中选取与所设置的类型标签中每两个类型标签构成的标签对对应的训练子集，并对所选取的训练子集分别进行二分类学习，得到与每个标签对一一对应的多个二分类器；

将所述测试集分别输入训练得到的多个二分类器，计算所述测试集中的样本对应的实例在各个类型标签上获取的第一投票；

将对应的虚拟标签分别添加进对应的训练子集中的每个样本，得到对应的类型标签和虚拟标签构成的标签对对应的训练子集，并采用所得到的训练子集分别训练得到与每个类型标签一一对应的多个辅助二分类器；所述虚拟标签用于标记与对应的训练子集中的样本相关和不相关的类型标签的分割点；

将所述测试集分别输入训练得到的多个辅助二分类器，计算所述测试集中的样本对应的实例分别在每个类型标签上获得的第二投票和在虚拟标签上获取的第三投票；

基于所述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票及在虚拟标签上获取的第三投票，确定最终的多标记分类器。

可选地，所述节点对之间的异构拓扑特征，包括路径数特征和随机游走特征。

可选地，所述测试集中的样本对应的实例在每个类型标签上获得的第一投票采用如下的公式计算得到：

其中，ζ(x_i，l_j)表示实例x_i在标签l_j上获得的投票，Clf_jk表示标签对(l_j，l_k)对应的二分类器，表示在训练子集中正确地将样本预测为负例，当表示在训练子集中正确地将样本预测为正例。

可选地，采用如下的公式计算所述测试集中的样本对应的实例在每个类型标签上获得的第二投票：

其中，ζ(x_i，l_j)表示实例x_i在标签l_j上获得的尚未更新的投票，Clf_jk表示标签对(l_j，l_k)对应的二分类器，表示表示在训练子集中正确地将样本预测为正例。

其中，ζ^*(x_i，l_s)表示实例x_i在虚拟标签l_s上获得的投票，表示在训练子集中正确地将样本预测为负例。。

可选地，所述基于所述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票及在虚拟标签上获取的第三投票，确定最终的多标记分类器，包括：

h(x)＝{l_j|ζ^*(x，l_j)＞ζ^*(x，l_s)}

其中，h(x)表示所述多标记分类器，l_j表示第j个类型标签，ζ^*(x，l_j)表示实例x_i在标签l_j上获得的最终投票，ζ^*(x，l_s)表示实例x_i在虚拟标签l_s上获得的投票。

可选地，所述方法还包括：

计算所述标签对之间的依赖分数并输出。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一项所述的异构信息网络链接预测方法的步骤。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一项所述的异构信息网络链接预测方法的步骤。

与现有技术相比，本发明的有益效果为：

上述的方案，通过基于所述样本集中的训练集和测试集进行多标记分类学习，得到对应的多标记分类器，并采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系进行预测，不仅仅可以对节点之间的直接链接进行预测，还可以对节点之间的其他关系，即元路径进行预测，使得实例具有多个而不再是唯一的类型标签，故可以提高异构网络链接预测的准确性。

进一步地，通过计算所述标签对之间的依赖分数并输出，可以提供关于如何形成新链接的建议，帮助探索复杂网络中链接和关系形成的规律，方便实用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种异构信息网络链接预测方法的流程示意图；

图2是本发明实施例的一种多标记分类器的训练方法的流程示意图；

图3示出了本发明实施例中的一种异构信息网络链接预测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

如背景技术所述，异构网路的链接预测存在以下的问题：

(1)拓扑特征的表示：由于对象和链接的异质性，在同构网络中使用的拓扑特征不是直接可用的。两个节点的邻居可以具有不同的类型，所以共同邻居的数量不能表示这种异质性。

(2)不同关系之间的相互依赖性：在本发明中，关系不仅指的是显式链接，而且指的是间接连接。对不同类型的关系之间的相关性建模是重要的，因为它们可能彼此影响。例如，在共同作者网络中，两个学者可以通过参加同一会议(另一种类型的关系)来建立共同作者(一种关系类型)。

单独研究网络的同构投影的简单方法避免了第一个问题，但是会丢失信息，因为它忽略了类型之间的依赖性模式。虽然异质性带来了很多困难来链接预测，它也提供丰富和有价值的信息，了解链接形成的潜在机制。链接预测的研究遵循常见的意义，即几个链接可以随机生成，但大多数链接是在潜在模式下生成的。目标链接的信息取决于目标链接的节点之间的潜在关系。

若不仅仅考虑预测节点之间的直接链接，而且还考虑预测节点之间的其他关系，即元路径，传统的二分类监督方法将不再适用，需要使用多标记学习。

真实世界的对象往往并不只具有唯一的语义，而是可能具有多义性的，例如一张图片可能传达了多种信息如“蓝天”、“小河”、“牛”以及“炊烟”等等。多义性对象由于不再具有唯一的语义，这就使得单一语义的传统监督学习框架难以取得好的效果。

本发明的技术方案通过基于所述样本集中的训练集和测试集进行多标记分类学习，得到对应的多标记分类器，并采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系进行预测，不仅仅可以对节点之间的直接链接进行预测，还可以对节点之间的其他关系，即元路径进行预测，使得实例具有多个而不再是唯一的类型标签，故可以提高异构网络链接预测的准确性。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例的一种异构信息网络链接预测方法的流程示意图。参见图1，一种异构信息网络链接预测方法，具体可以包括如下的步骤：

步骤S101：设定待预测异构网络中节点对之间的元路径、元路径的最大长度和每种元路径类型设置对应的类型标签。

在具体实施中，所述元路径为异构网络中从一个节点通过一系列的类型连接达到另一节点的路径。例如，元路径P_k＝(V₁E₁V₂E₂...E_n-1V_n)表示节点V₁通过一系列类型链接E_i(i＝1，2，...，n-1)到达节点V_n的路径，可以记为

为了简化，本发明实施例中使用对应节点的英文名称的第一个大写字母进行表示。例如，在DBLP合著者网络中，P表示论文，A表示作者，T表示主题，V表示会议，U表示用户，则用于描述作者间的引用关系的元路径，可以简写为“APPA”。

在具体实施中，所述待预测异构网络中节点对之间的元路径、元路径的最大长度和每种元路径类型设置对应的类型标签，本领域的技术人员均可以根据实际的需要进行设置，在此不做限制。

步骤S102：基于元路径提取节点对之间的异构拓扑特征，构建样本向量，组成样本集。

在本发明一实施例中，所述节点对之间的异构拓扑特征，包括路径数特征和随机游走特征。其中，路径数表示节点对之间的对应类型的元路径的总数量，节点之间的随机游走特征与元路径类型一一对应，即每种元路径类型分别具有一个对应的随机游走特征，具体可以采用如下的公式计算得到：

其中，表示起点为v_i终点为节点v_j的第k种元路径的数量，表示起点是v_i的第k种元路径的总数量

通过上述的描述可知，当待预测异构网路中的元路径类型为K，且节点对之间每张元路径可以被量化为路径数和随机游走两个异构拓扑特征时，则每个节点对可以被2K个异构拓扑特征描述。换言之，每个节点对采用对应的 2K维空间向量进行描述，该2K维空间向量称为该节点对对应的实例。

假设X表示2K维实例空间，L＝{l₁，l₂，...，l_K}表示标签空间，其中包含K种元路径，则基于元路径提取节点对之间的异构拓扑特征所构建的样本向量组成的样本集可以分为包括多标记训练集和多标记测试集。其中， D＝{(x_i，L_i)|1≤i≤m}表示多标记训练集，m表示多标记训练集中的样本数， (x_i，L_i)是一个多标记样本，其中为描述节点对(v_i，v_j)的2K维特征向量，x_i中的每一维可以是异构特征或同构特征，是x_i的标签集； T＝{(x_i，L_i)|m+1≤i≤n}是多标记测试集，n表示样本集中的样本总数。

步骤S103：基于所述样本集中的训练集和测试集进行多标记分类学习，得到对应的多标记分类器。

在具体实施中，当构建完成对应的训练集和测试集时，便可以采用所得到的多标记训练集D进行多标记分类学习训练得到的多标记分类器，并对训练得到的多标记分类器采用所述多标记测试集T进行优化，具体请参见图2中的详细介绍，不再赘述。

步骤S104：采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系进行预测。

在具体实施中，当训练得到的对应的多标记分类器时，便可以使用所得到的多标记分类器对待预测网络的未知部分进行预测，即对待预测网络中未连接的目标节点对之间的未知连接关系进行预测，得到预测后的新网络图。

在本发明一实施例中，所述方法还可以包括：

步骤S105：计算所述标签对之间的依赖分数并输出。

在本发明一实施例中，通过采用卡方检验工具(Chi-Square Test工具)可以计算所述标签对之间的依赖分数并输出，可以为用户提供关于如何形成节点对之间新链接的建议，帮助探索复杂网络中链接和关系形成的规律，方便实用。

图2是本发明实施例的一种多标记分类器的训练方法的流程示意图。参见图2，一种多标记分类器的训练方法，具体可以包括如下的步骤：

步骤S201：分别从所述训练集中选取与所设置的类型标签中每两个类型标签构成的标签对对应的训练子集，并对所选取的训练子集分别进行二分类学习，得到与每个标签对一一对应的多个二分类器。

在具体实施中，对于标签空间L＝{l₁，l₂，...，l_K}，其中的每两个类型标签构成的标签对对应的训练子集中的样本为从多标记训练集D中选取，具体可以定义为：

D_jk＝{(x_i，ψ(L_i，l_j，l_k))|φ(L_i，l_j)≠φ(L_i，l_k)} (2)

其中，D_jk表示标签对(l_j，l_k)对应的训练子集。

在具体实施中，当从多标记训练集D中选取标签对(l_j，l_k)对应的训练子集D_jk时便可以采用分类学习算法对二分类学习，得到与每个标签对(l_j，l_k) 一一对应的多个二分类器。

步骤S202：将所述测试集分别输入训练得到的多个二分类器，计算所述测试集中的样本对应的实例在各个类型标签上获取的第一投票。

在本发明一实施例中，所述测试集中的样本对应的实例在各个类型标签上获取的第一投票采用如下的公式计算得到：

步骤S203：将对应的虚拟标签分别添加进对应的训练子集中的每个样本，得到对应的类型标签和虚拟标签构成的标签对对应的训练子集，并采用所得到的训练子集分别训练得到与每个类型标签一一对应的多个辅助二分类器。

在具体实施中，将一个虚拟标签l_s添加进每个样本，用于标记与x_i相关及不相关的标签的分割点，针对每个新的标签对(l_j，l_s)分别得到的对应的训练集D_is，并采用对应的二分类学习算法对每个新的标签对(l_j，l_s)分别得到的对应的训练集D_js分别进行学习，得到对应的K个辅助二分类器Clf_js。

步骤S204：将所述测试集分别输入训练得到的多个辅助二分类器，计算所述测试集中的样本对应的实例分别在每个类型标签上获得的第二投票和在虚拟标签上获取的第三投票。

在本发明一实施例中，采用如下的公式计算所述测试集中的样本对应的实例在每个类型标签上获得的第二投票：

在本发明一实施例中，采用如下的公式计算所述测试集中的样本对应的实例在每个类型标签上获得的第三投票：

其中，ζ^*(x_i，l_s)表示实例x_i在虚拟标签l_s上获得的投票，表示在训练子集中正确地将样本预测为负例。

步骤S205：基于所述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票及在虚拟标签上获取的第三投票，确定最终的多标记分类器。

在本发明一实施例中，所确定最终的多标记分类器可以表示为：

h(x)＝{l_j|ζ^*(x，l_j)＞ζ^*(x，l_s)} (8)

上述对本发明实施例中的异构信息网络链接预测方法进行了详细的描述，下面将对上述的方法对应的装置进行介绍。

图3示出了本发明实施例中的一种异构信息网络链接预测装置的结构示意图。参见图3，一种异构信息网络链接预测装置30可以包括设定单元301、构建单元302、分类学习单元303和预测单元304，其中：

所述设定单元301，适于设定待预测异构网络中节点对之间的元路径、元路径的最大长度和每种元路径类型设置对应的类型标签。

所述构建单元302，适于基于元路径提取节点对之间的异构拓扑特征，构建样本向量，组成样本集；所述样本集包括训练集和测试集。

所述分类学习单元303，适于基于所述样本集中的训练集和测试集进行多标记分类学习，得到对应的多标记分类器。

所述预测单元304，适于采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系进行预测。

在具体实施中，所述分类学习单元303，适于分别从所述训练集中选取与所设置的类型标签中每两个类型标签构成的标签对对应的训练子集，并对所选取的训练子集分别进行二分类学习，得到与每个标签对一一对应的多个二分类器；将所述测试集分别输入训练得到的多个二分类器，计算所述测试集中的样本对应的实例在各个类型标签上获取的第一投票；将对应的虚拟标签分别添加进对应的训练子集中的每个样本，得到对应的类型标签和虚拟标签构成的标签对对应的训练子集，并采用所得到的训练子集分别训练得到与每个类型标签一一对应的多个辅助二分类器；所述虚拟标签用于标记与对应的训练子集中的样本相关和不相关的类型标签的分割点；将所述测试集分别输入训练得到的多个辅助二分类器，计算所述测试集中的样本对应的实例分别在每个类型标签上获得的第二投票和在虚拟标签上获取的第三投票；基于所述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票及在虚拟标签上获取的第三投票，确定最终的多标记分类器。

在具体实施中，所述节点对之间的异构拓扑特征，包括路径数特征和随机游走特征。

在本发明一实施例中，所述分类学习单元303，适于采用如下的公式计算得到所述测试集中的样本对应的实例在每个类型标签上获得的第一投票：

在本发明一实施例中，所述分类学习单元303，适于采用如下的公式计算所述测试集中的样本对应的实例在每个类型标签上获得的第二投票：

在本发明一实施例中，所述分类学习单元303，适于采用如下的公式基于所述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票及在虚拟标签上获取的第三投票，确定最终的多标记分类器：

h(x)＝{l_j|ζ^*(x，l_j)＞ζ^*(x，l_s)}；其中，h(x)表示所述多标记分类器，l_j表示第j个类型标签，ζ^*(x，l_j)表示实例x_i在标签l_j上获得的最终投票，ζ^*(x，l_s)表示实例 x_i在虚拟标签l_s上获得的投票。

在本发明一实施例中，所述装置30还可以包括305，其中：

所述计算输出单元305，适于计算所述标签对之间的依赖分数并输出。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的异构信息网络链接预测方法的步骤。其中，所述的异构信息网络链接预测方法请参见前述相关部分的介绍，不再赘述。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的异构信息网络链接预测方法的步骤。其中，所述的异构信息网络链接预测方法请参见前述相关部分的介绍，不再赘述。

采用本发明实施例中的上述方案，通过基于所述样本集中的训练集和测试集进行多标记分类学习，得到对应的多标记分类器，并采用训练得到的多标记分类器对待预测异构网络中节点之间的未知关系进行预测，不仅仅可以对节点之间的直接链接进行预测，还可以对节点之间的其他关系，即新类型的元路径进行预测，故可以提高异构网络链接预测的准确性。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims

1.一种异构信息网络链接预测方法，其特征在于，包括：

2.根据权利要求1所述的异构信息网络链接预测方法，其特征在于，所述基于所述样本集中的训练集和测试集进行多标记分类学习，得到对应的多标记分类器，包括：

3.根据权利要求2所述的异构信息网络链接预测方法，其特征在于，所述节点对之间的异构拓扑特征，包括路径数特征和随机游走特征。

4.根据权利要求3所述的异构信息网络链接预测方法，其特征在于，所述测试集中的样本对应的实例在每个类型标签上获得的第一投票采用如下的公式计算得到：

5.根据权利要求4所述的异构信息网络链接预测方法，其特征在于，采用如下的公式计算所述测试集中的样本对应的实例在每个类型标签上获得的第二投票：

其中，ζ(x_i，l_j)表示实例x_i在标签l_j上获得的尚未更新的投票，Clf_jk表示标签对(l_j，l_k)对应的二分类器，表示在训练子集中正确地将样本预测为正例。

6.根据权利要求5所述的异构信息网络链接预测方法，其特征在于，采用如下的公式计算所述测试集中的样本对应的实例在每个类型标签上获得的第二投票：

7.根据权利要求3-6任一项所述的异构信息网络链接预测方法，其特征在于，所述基于所述测试样本对应的实例在所述每个类型标签上获得的第一投票和第二投票及在虚拟标签上获取的第三投票，确定最终的多标记分类器，包括：

h(x)＝{l_j|ζ^*(x，l_j)＞ζ^*(x，l_s)}

8.根据权利要求3-6任一项所述的异构信息网络链接预测方法，其特征在于，还包括：

计算所述标签对之间的依赖分数并输出。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至8任一项所述的异构信息网络链接预测方法的步骤。

10.一种终端，其特征在于，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的异构信息网络链接预测方法的步骤。