CN110598061A

CN110598061A - 一种多元图融合的异构信息网嵌入方法

Info

Publication number: CN110598061A
Application number: CN201910893511.3A
Authority: CN
Inventors: 申德荣; 吴瑶; 寇月; 聂铁铮; 于戈
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2019-12-20

Abstract

本发明公开一种多元图融合的异构信息网嵌入方法，包括以下步骤：1)元图发现：根据异构信息网的特性选择频繁元图集合，以涵盖网络的重要语义特征；2)基于多元图融合的网络嵌入：利用适用于非对称元图的相似度度量方法计算异构信息网节点的相似度矩阵，并将该矩阵作为后续嵌入模型的原始特征；3)利用神经网络进行节点嵌入。采用本发明的异构网络嵌入方法，一方面，可以挖掘代表当前网络结构和语义特征的重要元图；一方面，提出的基于元图的节点相似度度量方法更具有通用性，并且通过原始特征的降维和融合，可以根据当前网络的特性计算不同元图的重要性，提高嵌入的准确性。

Description

一种多元图融合的异构信息网嵌入方法

技术领域

本发明涉及异构信息网的数据挖掘领域，具体为一种多元图融合的异构信息网嵌入方法。

背景技术

网络表示学习是将网络嵌入到低维空间中，可以将网络中的节点、边或图表示成向量形式。这种表示形式能够更多保留节点的网络结构或者语义信息，因此可以将该向量表示作为特征应用到各种数据挖掘任务当中。

当前已有许多针对同构网络嵌入的研究成果，和部分面向异构网络嵌入的研究。利用元路径进行网络嵌入是提取异构网络特征的常用方法，但是元路径结构简单，可能会丢失一些重要的信息。元图可以获取到较元路径更复杂的信息，同时考虑节点间的元图和元路径会得到更好的嵌入结果。然而，已有方法大多由专家指定元路径和元图，类型较单一，不适用于大型复杂的网络，而且在指定元图和元路径时未考虑同类型网络各自的独特性，影响节点嵌入准确性。虽然已提出了一些针对异构网络元路径的发现算法，但是还没有见到关于元图的发现方法。部分研究利用频繁子图挖掘算法找到当前异构网络的频繁子图，将其作为元图，但是因为频繁子图算法生成的元图数量较大，并且在结构上可能存在很大程度的相似性，导致后续基于元图的相似度计算复杂度过高。

鉴于元路径是一种特殊形式的元图，本发明提出了一种元图发现方法。在各种复杂网络的数据挖掘应用场景下，该方法可以发现网络中的适量关键元图，这些元图可以提取原网络的各类重要信息，减少网络嵌入的信息损失。基于元图发现算法，本文提出一种多元图融合的异构网络嵌入方法，该方法利用自动编码器模型，进一步自适应地选择关键元结构并学习权重值，不仅能够更好地获取网络的结构和语义特征，还可能有效降低人为因素对嵌入结果的影响。

发明内容

针对现有技术中异构信息网嵌入方法的相似度计算复杂度过高等不足，本发明要解决的问题是提供一种各种复杂网络的数据挖掘应用场景下发现网络中的适量关键元图、减少网络嵌入的信息损失的多元图融合的异构信息网嵌入方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种多元图融合的异构信息网嵌入方法，包括以下步骤：

1)元图发现：根据异构信息网的特性选择频繁元图集合，以涵盖网络的重要语义特征；

2)基于多元图融合的网络嵌入：利用适用于非对称元图的相似度度量方法计算异构信息网节点的相似度矩阵，并将该矩阵作为后续嵌入模型的原始特征；

3)利用神经网络进行节点嵌入。

步骤1)具体包括：

101)频繁元图挖掘：构建频繁边集合，选择包含目标节点的频繁边执行子图扩展；过滤掉不满足节点数量、节点类型等要求的子图，同时计算子图的频繁度；在子图集合中抽取满足设定的元图；

102)候选元图选择：每个元图表示为(x,y)^T的矩阵形式，其中 x＝(nt₁,nt₂,...,nt_k)，y＝(et₁,et₂,...,et_k)，nt_i表示图的节点类型，et_j表示图的边类型，两者的取值分别表示特定类型节点和边的数量；利用余弦相似度公式 (1)计算两图的结构相似度，n为类内子图的数量，a、b为两个不同的子图，i、j分别为x、y的第i和第j个分量；利用公式(2)计算类心(mx,my)^T：

将生成的频繁元图根据其结构相似度聚成k个类别，每个类别再根据其类内子图的结构相关性，和不同类别的子图的结构差异性，投票选择出最能代表本类别元图的某一个或者某几个元图。

步骤102)中投票选择出最能代表本类别元图的某一个或者某几个元图，具体包括：

10201)在所有生成的频繁子图中随机选择k个对象作为初始类心；

10202)遍历所有对象，计算与k个类心的结构相似度，将其归类到相似度分数最高的类心所在的聚类中；

10203)根据聚类结果重新计算聚类中心；

10204)若新类心与之前的类心不同，则重复前两步，直到聚类结果不再变化；

10205)计算类内子图的结构相似度以及每个聚类中的子图到其他聚类中心的结构相似度；

10206)对每个子图与同一类别其他子图的结构相似度分数和类间差异度分数求和，找到最大值作为k个类的代表子图即候选元图。

步骤2)具体包括：

201)基于元图的节点相似度计算：从给定的元图中抽取若干条元路径，计算两点在不同元路径相遇概率的乘积作为节点在元图中的相遇概率，给定一个异构信息网，公式(3)PM_p表示两点沿元路p的可达矩阵：

其中，是邻接矩阵的行归一化结果，表示A_i→A_i+1的转移概率矩阵，同时，邻接矩阵的按列归一化表示A_i+1→A_i的转移概率；

公式(4)表示两点沿元路径在中点类型M下相遇的概率：

其中，P₁,P₂,L P_k是构成元图的元路径集合，所以两者在中点类型M下相遇的概率表示为如下形式：

HeteMGSim(A₁,A_l+1|S)＝HeteSim(A₁,A_l+1|P₁)·HeteSim(A₁,A_l+1|P₂)L HeteSim(A₁,A_l+1|P_k)

＝HeteSim(A₁,A_l+1|P_1LP_1R)L HeteSim(A₁,A_l+1|P_kLP_kR)(5)

202)利用神经网络学习节点的向量表示：利用一种自动编码器模型作为多元图融合的无监督网络嵌入方法，首先对基于元图的相似度特征进行降维，然后学习不同元图的权重，最后融合不同元图下节点的向量表示；

在编码部分，公式(6)-(8)表示这些变量间的关系，x_i为第i个节点的初始特征，为节点经过k个隐藏层编码后的向量表示，z_i为最终的编码结果，W^k、b^k为第k个隐藏层的参数，_Φk为第k个元图，σ为sigmod函数：

在解码部分，公式(9)-(11)表示这些变量间的关系，表示第k个隐藏层参数，z_i表示编码的结果，表示经过k个隐藏层解码后的向量表示，表示最终的解码结果：

该模型的目标函数是最小化网络中所有实例的原始特征向量与重构特征向量之间的编码损失，其损失函数表示为公式(12)的形式，v表示网络中所有节点，_Φk为不同的元图，为表示节点在第k个元图中的初始特征和嵌入结果，为对应的权重值：

本发明具有以下有益效果及优点：

1.采用本发明的异构网络嵌入方法，一方面，可以挖掘代表当前网络结构和语义特征的重要元图；一方面，提出的基于元图的节点相似度度量方法更具有通用性，并且通过原始特征的降维和融合，可以根据当前网络的特性计算不同元图的重要性，提高嵌入的准确性。

2.采用本发明的异构信息网嵌入方法，可避免通过用户指定和监督学习生成元图造成的信息缺失问题；同时，利用无监督的自动编码器结构，可以自动学习网络中的关键元路径以及相应的权重值；另外，对基于元路径计算节点相似度方法的改进可以较好适应元图的应用场景，且具有更强的通用性。

附图说明

图1为本发明方法的总体流程图；

图2为本发明方法涉及的频繁元图图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

如图1所示，本发明一种多元图融合的异构信息网嵌入方法，包括以下步骤：

1)元图发现：异构信息网的特性选择频繁元图集合，以涵盖网络的重要语义特征；

2)基于多元图融合的网络嵌入：利用适用于非对称元图的相似度度量方法计算异构信息网中的节点的相似度矩阵，并将该矩阵作为后续嵌入模型的原始特征；

3)利用神经网络进行节点嵌入。

步骤1)具体包括：

102)候选元图选择：每个元图表示为(x,y)^T的矩阵形式，其中 x＝(nt₁,nt₂,...,nt_k)，y＝(et₁,et₂,...,et_k)，nt_i表示图的节点类型，et_j表示图的边类型，两者的取值分别表示特定类型节点和边的数量，n表示类内子图的数量， a、b表示两个不同的子图，i、j分别表示x、y的第i和第j个分量；利用余弦相似度公式(1)计算两图的结构相似度，利用公式(2)计算类心 (mx,my)^T：

将生成的频繁元图根据其结构相似度聚成k个类别，每个类别再根据其组内类内的结构相关性，和组间类间的结构差异性，投票选择出最能代表本类别元图的某一个或者某几个元图。

10203)根据聚类结果重新计算聚类中心；

10206)对每个子图的与同一类别其他子图的结构相似度分数和类间差异度分数求和，找到最大值作为k个类的代表子图即候选元图。

步骤2)具体包括：

201)基于元图的节点相似度计算：从给定的元图中抽取若干条元路径，计算两点在不同元路径相遇概率的乘积作为节点在元图中的相遇概率，给定一个异构信息网，公式(3)PM_p表示两点沿元路径的可达矩阵：

公式(4)表示两点沿元路径在中点类型M下相遇的概率：

＝HeteSim(A₁,A_l+1|P_1LP_1R)L HeteSim(A₁,A_l+1|P_kLP_kR) (5)

在编码部分，公式(6)-(8)表示这些变量间的关系，x_i表示第i个节点的初始特征，表示节点经过k个隐藏层编码后的向量表示，z_i表示最终的编码结果，W^k、b^k表示第k个隐藏层的参数，_Φk表示第k个元图，σ表示sigmod函数：

该模型的目标函数是最小化网络中所有实例的原始特征向量与重构特征向量之间的编码损失，其损失函数表示为公式(12)的形式，v表示网络中所有节点，_Φk表示不同的元图，分别表示节点在第k个元图中的初始特征和嵌入结果，表示对应的权重值：

下面以DBLP数据集为例，对本发明方法进行具体说明。

DBLP数据集包含文章以及文章的作者、会议、参考文献、关键词等多种属性信息。在数据集中选择发表论文数量较多的作者集合，以及论文数量较多的会议和期刊，利用论文及其属性信息构建异构网络。网络链接包括author-paper、paper-venue、paper-paper、paper-term四种类型。随机选择 author类型的节点对，根据节点对是否处于同一语义类别划分正样本和负样本，用准确率、召回率度量不同算法的执行效果。

首先，如图2所示，构建异构网络，挖掘频繁元图。本步首先需要设置元图的起始点类型和元图的大小，比如将起始点类型均设置为author，元图的节点数量最多为10个，频繁度阈值设为2，则可以得到以下的频繁元图：APA、APVPA、APTPA、APPA、APPPA、APT(V)PA，其中P表示paper， A表示author，V表示venue，T表示term。

然后，执行元图选择，利用k-means算法进行元图聚类，选择代表当前网络结构和语义信息的关键元图。例如，针对当前网络，可以得到的元图包括：APTPA、APA、APT(V)PA。

接着，计算节点相似度。根据选择的正负样本，计算作者节点对基于不同元图的相似度分数，构成对应的相似度矩阵，作为神经网络模型的输入。比如在当前网络中计算作者节点间基于APA的相似度，如表(a)、(b)所示对网络的邻接矩阵执行归一化，作为A→P、P→A的转移概率矩阵。针对特定元路径，起始点的相似度可以由两者到路径中点的转移概率相乘进而归一化得到，如表(c)。

(a)

(b)

(c)

最后，利用神经网络进行节点嵌入。矩阵的行可以表示在特定元图下的某一作者与其他作者的相似度分数。针对当前网络，神经网络模型的输入是分别对应APA、APT(V)PA的特征矩阵(d)、(e)：

	author1	author2	author3	author4
					author1	1	0.4082	0	0.7071
author2	0.4082	1	0.5774	0
					author3	0	0.5774	1	0
author4	0.7071	0	0	1

(d)

	author1	author2	author3	author4
					author1	1	1	0	1
author2	1	1	0	1
					author3	1	1	0	1
author4	1	1	0	1

(e)

每个元图对应的相似度矩阵，都需要执行一系列独立的编码和解码操作，同时为了融合不同元图的信息，增加了编码阶段潜在特征整合的隐藏层和解码阶段潜在特征分解的隐藏层。将编码结果作为作者节点的嵌入向量，具体结果如表(f)所示，然后计算目标节点对的余弦相似度，根据正负样本在节点的topk排序计算链路预测的准确率和召回率。比如针对 author1，按照相似度大小的节点排序是author1>author2>author4>author3，假设正样本排名在前两位即视为依据领域类别的链路预测结果正确，同样负样本排名在后两位视为预测正确，在本实例中author1与author2属于同一研究领域，而author1与author3属于不同领域，由此可以看到对应正负样本(author1，author2)(auhtor1，author3)的研究领域预测均正确。在整个案例中，随机选取正样本(author1，author2)(author2，author4)(author2， author3)和负样本(author1，author3)(author3，author4)，根据节点嵌入向量(f)，计算预测的准确率和召回率分别为0.80和0.67，可以看到两个指标值都很高。

所以本文提出的多元图融合的异构信息网嵌入方法有较好的链路预测效果。

	author1	author2	author3	author4
					author1	0.9571	0.8674	0.2057	0.8359
author2	0.6291	0.9301	0.3872	0.5974
					author3	0.4391	0.6124	0.9428	0.2622
author4	0.6035	0.7726	0.0717	0.9442

(f)

下表为本发明方法与其他方法的对比图表，通过比较说明本方法计算的准确率和召回率都比较高，因此链路预测的效果较好。

Methods	Precision	Recall
			AD	0.4456	0.2346
Dual-stage	0.6816	0.3745
			DeepWalk	0.6667	0.2000
Meta2vec	0.8734	0.0523
			HE-MGF	0.8774	0.4495

Claims

1.一种多元图融合的异构信息网嵌入方法，其特征在于包括以下步骤：

3)利用神经网络进行节点嵌入。

2.根据权利要求1所述的多元图融合的异构信息网嵌入方法，其特征在于步骤1)具体包括：

102)候选元图选择：每个元图表示为(x,y)^T的矩阵形式，其中x＝(nt₁,nt₂,...,nt_k)，y＝(et₁,et₂,...,et_k)，nt_i表示图的节点类型，et_j表示图的边类型，两者的取值分别表示特定类型节点和边的数量；利用余弦相似度公式(1)计算两图的结构相似度，n为类内子图的数量，a、b为两个不同的子图，i、j分别为x、y的第i和第j个分量；利用公式(2)计算类心(mx,my)^T：

3.根据权利要求1所述的多元图融合的异构信息网嵌入方法，其特征在于步骤102)中投票选择出最能代表本类别元图的某一个或者某几个元图，具体包括：

10203)根据聚类结果重新计算聚类中心；

4.根据权利要求1所述的多元图融合的异构信息网嵌入方法，其特征在于步骤2)具体包括：

公式(4)表示两点沿元路径在中点类型M下相遇的概率：

＝HeteSim(A₁,A_l+1|P_1LP_1R)L HeteSim(A₁,A_l+1|P_kLP_kR) (5)