CN115314398A

CN115314398A - 一种评估异质信息网络关键节点的方法

Info

Publication number: CN115314398A
Application number: CN202211195029.0A
Authority: CN
Inventors: 占晓勇; 舒坚
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-11-08
Anticipated expiration: 2042-09-29
Also published as: CN115314398B

Abstract

本发明公开了一种评估异质信息网络关键节点的方法，针对异质信息网络多类型节点与连边、网络结构复杂等特点，该方法通过约简网络中的节点以及连边，得到节点嵌入向量与边嵌入向量，进而构建图神经网络，得到关键节点评估模型。本发明在通过约简网络简化建模过程的同时，能够尽可能保留丰富的语义信息，通过对节点与连边进行表征学习，采用图神经网络建立评估模型，能够提高异质信息网络关键节点评估的准确性。

Description

一种评估异质信息网络关键节点的方法

技术领域

本发明涉及网络关键节点分析技术领域，特别是涉及一种评估异质信息网络关键节点的方法。

背景技术

现实生活中形形色色的系统，通常由大量类型各异、彼此交互的组件构成，例如社交、生物和计算机系统等。研究人员可以将系统中互相作用的组成抽象为信息网络。目前大部分网络中仅包含相同类型的对象与连接关系，这样往往只抽取了实际交互系统的部分信息或者没有区分对象及其之间关系的异质性，从而造成不可逆的信息损失。为了实现对现实世界更完整自然地抽象，更多研究者开始将系统网络数据建模为异质信息网络(HIN,Heterogeneous Information Network)，例如引文网络、电影网络等。

在异质信息网络中，某些节点是整个网络的核心，具有重要的研究价值。网络中每一个节点的重要程度，决定了其在网络中的地位与作用，同时关乎整个网络的健壮性与安全性。比如在设计电力系统时，可以运用关键节点识别技术，对处于关键位置的设备进行保护，避免因某个节点的故障引发重大停电或其他事故。

现有的一些方法，例如基于网络局部性、基于机器学习的关键节点评估方法，在评价异质信息网络节点重要度时考虑因素较为单一，影响异质信息网络关键节点评估的准确性。

发明内容

针对上述问题，本发明的目的在于提出一种评估异质信息网络关键节点的方法，以解决现有技术考虑因素较为单一，异质信息网络关键节点评估的准确性的问题。

本发明采用的技术方案如下：

一种评估异质信息网络关键节点的方法，包括如下步骤：

步骤一，对异质信息网络进行节点类型约简操作，将异质信息网络约简为单节点类型多关系网络(MHIN, Multiplex Heterogeneous Information Network)，选定源节点类型、设计对称元路径规则，将选定类型节点之间的对称元路径抽象为新的连边关系，同时根据不同连边关系，划分为不同关系子图，使用基于结构识别的网络表征方法(struc2vec)获得不同子图下的节点嵌入向量，最后将不同子图下的节点嵌入向量进行拼接，获得节点嵌入向量，并构建节点特征矩阵；

步骤二，对单节点类型多关系网络进行连边类型约简操作，将单节点类型多关系网络约简为语义化同质网络，根据所述对称元路径规则，通过数据集自带的文本信息，构建语料库，将节点间的语料信息，通过语言预训练模型(BERT, Bidirectional EncoderRepresentation from Transformers)进行连边关系聚合，获得连边嵌入向量；

步骤三，通过节点嵌入向量与连边嵌入向量得到邻居节点对中心节点的权重影响，构建权重矩阵，使用图卷积网络(GCN, Graph Convolutional Network)构建关键节点评估模型，将权重矩阵与节点特征矩阵作为模型输入，使用多层感知机(MLP, MultilayerPerceptron)输出重要度得分，得到关键节点排序结果。

上述评估异质信息网络关键节点的方法，其中，步骤一中，对异质信息网络进行节点类型约简操作具体包括：

设G_HIN=(V, E, A, P)为异质信息网络，其中V表示节点集合，E表示关系集合，A表示节点类型集合，P表示关系类型集合，分析节点与连边的类型，统计节点间的连接情况，设计源节点类型与对称元路径类型，设计的对称元路径类型需要尽可能包含丰富的语义信息以及网络结构信息。根据对称元路径规则约简网络，得到单节点类型多关系网络G_MHIN=(V,E, P)。

上述评估异质信息网络关键节点的方法，其中，步骤一中，获得节点嵌入向量，并构建节点特征矩阵具体包括：

根据关系集合中不同关系，将G_MHIN划分为不同子图，得到子图集合G_p={G_p1,G_p2,…,G_pn}，其中n为关系类型数量，G_p1、G_p2、G_pn分别表示第1种关系类型的子图、第2种关系类型的子图、第n种关系类型的子图；

对每个子图使用基于结构识别的网络表征方法学习节点表示，得到不同子图下节点嵌入向量

，其中i表示第i个节点，p_n表示关系类型，最后根据下式进行不同子图下节点嵌入向量的向量拼接，得到节点v_i的嵌入向量X_i；

其中

、

、

分别表示第1种关系类型的子图下的节点v_i的嵌入向量、第2种关系类型的子图下的节点v_i的嵌入向量、第n种关系类型的子图下的节点v_i的嵌入向量，

表示向量拼接操作，进而得到节点特征矩阵H。

上述评估异质信息网络关键节点的方法，其中，步骤二具体包括：

根据得到的单节点类型多关系网络G_MHIN=(V, E, P)，可以确保节点之间至少会有一种关系连边进行连接，为了得到语义化同质网络G_g=(V, E)，需要对节点间不同连边关系进行关系聚合；

根据所述对称元路径规则，构建节点v_i与v_j在对称元路径f₁连接下的语料库

，如下式所示：

其中，

表示对称元路径中首节点的文本信息，

分别表示对称元路径中尾节点的文本信息，

表示源节点

与目标节点

之间连边关系文本信息，

表示对称元路径中

、

、

以外的文本信息；

最后将节点v_i与v_j之间不同对称元路径连接下的语料库汇总，得到汇总语料库

，如下式所示：

其中，f_i表示第i种类型的对称元路径；

将节点v_i与v_j之间构建出来的语料库，输入到语言预训练模型中，进行关系聚合，得到连边嵌入向量E_i,j，如下式所示：

其中，BERT表示语言预训练模型。

上述评估异质信息网络关键节点的方法，其中，步骤三中，通过节点嵌入向量与连边嵌入向量得到邻居节点对中心节点的权重影响，构建权重矩阵具体包括：

根据得到的每个节点嵌入向量，结合连边嵌入向量，获得节点间影响权重，进而构建权重矩阵，权重计算如下式所示：

其中，a_j,i表示邻居节点v_j对中心节点v_i的影响权重，a_j,i∈(0,1)，σ为非线性激活函数Sigmoid，W_wgt为全连接层权重，

为拼接函数，X_j表示节点v_j的嵌入向量，

表示向量减操作，得到节点间相互影响权重后，将权重值替换邻接矩阵中的(0,1)值，得到权重矩阵W_g。

上述评估异质信息网络关键节点的方法，其中，步骤三中，使用图卷积网络构建关键节点评估模型，将权重矩阵与节点特征矩阵作为模型输入，使用多层感知机输出重要度得分，得到关键节点排序结果具体包括：

获取节点特征矩阵H，与权重矩阵W_g；

使用图卷积网络与多层感知机构建关键节点评估模型，使用节点特征矩阵H与权重矩阵W_g作为模型输入，图卷积层聚合特征信息，多层感知机作为模型的输出层，得到节点重要度分数组成的重要度序列，通过排序后得到最终的关键节点；

节点特征聚合的表达式H_gcn为：

其中，

表示在第l层卷积层的节点特征矩阵，D为度矩阵，

，

，I为单位矩阵；

多层感知机输出重要度分数如下式所示：

其中，W_m与b_m表示多层感知机的权重与偏置，

为重要度分数，MLP表示使用多层感知机作为输出层，ReLU为激活函数；

将节点按照重要度分数排列，得到关键节点排序结果，分数大的节点即为关键节点。

根据本发明提供的评估异质信息网络关键节点的方法，针对异质信息网络多类型节点与连边、网络结构复杂等特点，通过约简网络中的节点以及连边，得到节点嵌入向量与边嵌入向量，进而构建图神经网络，得到关键节点评估模型，本发明在通过约简网络简化建模过程的同时，能够尽可能保留丰富的语义信息，通过对节点与连边进行表征学习，采用图神经网络建立评估模型，能够提高异质信息网络关键节点评估的准确性。

附图说明

图1是为本发明实施例的评估异质信息网络关键节点的方法的逻辑示意图；

图2是网络约简流程示意图；

图3是节点嵌入示意图；

图4是连边嵌入示意图；

图5是关键节点评估示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请结合图1，本实施例提供一种评估异质信息网络关键节点的方法，首先对异质信息网络进行节点类型约简，将不同的元路径类型抽象为新的连边关系，根据不同连边关系划分为不同的子图，在子图上对节点进行表征；其次对连边类型进行约简，聚合连边信息，得到连边嵌入向量；使用图神经网络构建关键节点评估模型，得出关键节点序列。该方法具体包括步骤S1~S3。

S1 ，对异质信息网络进行节点类型约简操作，将异质信息网络约简为单节点类型多关系网络(MHIN, Multiplex Heterogeneous Information Network)，选定源节点类型、设计对称元路径规则，将选定类型节点之间的对称元路径抽象为新的连边关系，进而达到节点约简的效果，同时根据不同连边关系，划分为不同的子图，使用基于结构识别的网络表征方法(struc2vec)获得不同子图下的节点嵌入向量，最后将不同子图下的节点嵌入向量进行拼接，获得每个节点的嵌入向量，构建节点特征矩阵。

S2，对单节点类型多关系网络进行连边类型约简操作，将单节点类型多关系网络约简为语义化同质网络。根据先前所设计好的对称元路径规则，通过数据集自带的文本信息，构建语料库。将节点间的语料信息，通过语言预训练模型(BERT, BidirectionalEncoder Representation from Transformers)进行连边关系聚合，获得连边嵌入向量。

S3，通过节点嵌入向量与连边嵌入向量得到邻居节点对中心节点的权重影响，构建权重矩阵。使用图卷积网络(GCN, Graph Convolutional Network)构建关键节点评估模型，将权重矩阵与节点特征矩阵作为模型输入，使用多层感知机(MLP, MultilayerPerceptron)输出重要度得分，得到关键节点排序结果。

其中，步骤S1具体包括步骤S11~S12：

S11，如图2中的(a)所示，设G_HIN=(V, E, A, P)为异质信息网络，其中V表示节点集合，E表示关系集合，A表示节点类型集合，P表示关系类型集合。分析节点与连边的类型，统计节点间的连接情况，根据先验知识确定源节点类型与对称元路径类型,一般选择节点数量较多的节点类型当成为源节点类型。设计的对称元路径类型需要尽可能包含丰富的语义信息以及网络结构信息。确定的源节点类型表示为A_Source。给定异质信息网络对称元路径

。其中

表示源节点类型节点v_i、v_j，

表示其他节点类型节点v_i，p₁、p_n表示不同的连边关系。给定对称元路径类型集合

，其中，f₁表示第1种类型的对称元路径，f₂表示第2种类型的对称元路径， f₃表示第n种类型的对称元路径。根据对称元路径规则约简网络，得到单节点类型多关系网络G_MHIN=(V, E, P)，如图2中的(b)所示，其中V表示节点集合，E表示关系集合，P表示关系类型集合。

S12，根据关系集合中不同关系，将G_MHIN划分为不同子图，得到子图集合G_p={G_p1, G_p2,…,G_pn}，其中n为关系类型数量，G_p1、G_p2、G_pn分别表示第1种关系类型的子图、第2种关系类型的子图、第n种关系类型的子图。如图3所示，对每个子图使用struc2vec学习节点表示，得到不同子图下节点嵌入向量

，其中i表示第i个节点，p_n表示关系类型。最后根据公式 (1)进行不同子图下节点嵌入向量的向量拼接，得到节点v_i的嵌入向量X_i。

（1）

其中

、

、

表示向量拼接操作，进而得到节点特征矩阵H。

步骤S2具体包括步骤S21~S22：

S21，根据得到的单节点类型多关系网络G_MHIN，可以确保节点之间至少会有一种关系连边进行连接。为了得到语义化同质网络G_g=(V, E)，如图2中的(c)所示，需要对节点间不同连边关系进行关系聚合。由于新的连边关系是由不同的对称元路径抽象得到的，本质还是对称元路径。而数据集自带对应的文本特征信息，可以构建节点间语料库，使用语言预训练模型得到节点间连边嵌入向量，达到连边关系聚合效果。

S22，根据设计好的对称元路径类型，构建节点v_i与v_j在对称元路径f₁连接下的语料库

，如公式(2)所示。

（2）

其中，

表示对称元路径中首节点的文本信息，

分别表示对称元路径中尾节点的文本信息，

表示源节点

与目标节点

之间连边关系文本信息，

表示对称元路径中

、

、

以外的文本信息。

，如下式所示。

(3)

其中，f_i表示第i种类型的对称元路径；

如图4所示，将节点v_i与v_j之间构建出来的语料库，输入到语言预训练模型BERT中，进行关系聚合，得到连边嵌入向量E_i,j，如公式(4)所示。

(4)

其中，BERT表示语言预训练模型。

具体实施时，以DBLP引文网络为例，定义了对称元路径规则APA，APCPA。则具体可以生成以下两条语句：“APA，作者A与作者B合著了文章P”、“APCPA，作者A写的文章P1与作者B写的文章P2都投稿了会议C”。此时APA、APCPA代表两种连边关系，为了连边约简，则将生成的语料放入语言预训练模型中进行文本特征提取与聚合，完成连边聚合操作。

步骤S3具体包括步骤S31~S32：

S31，根据得到的每个节点嵌入向量，结合连边嵌入向量，获得节点间影响权重，进而构建权重矩阵。通过借鉴注意力机制，设计出一种权值计算方法，以防止相邻节点间的噪声，以区别相邻节点对中心节点的不同重要性。如公式(5)所示。

(5)

为拼接函数，X_j表示节点v_j的嵌入向量，

S32，获取节点特征矩阵H，与权重矩阵W_g。其中权重矩阵W_g不仅能够反映邻居节点对中心节点的权重影响，还能反映整个网络的拓扑结构。

使用图卷积网络与多层感知机构建关键节点评估模型。如图5所示，使用节点特征矩阵H与权重矩阵W_g作为模型输入，图卷积层聚合特征信息，多层感知机作为模型的输出层，得到节点重要度分数组成的重要度序列，通过排序后得到最终的关键节点。

节点特征聚合表达式H_gcn如公式(6)所示：

(6)

其中，

表示在第l层卷积层的节点特征矩阵，D为度矩阵，

，

，I为单位矩阵。

多层感知机输出重要度分数如公式(7)所示：

(7)

其中，W_m与b_m表示多层感知机的权重与偏置，

为重要度分数，MLP表示使用多层感知机作为输出层，ReLU为激活函数。将节点按照重要度分数排列，分数大的节点即为关键节点。

根据上述的评估异质信息网络关键节点的方法，针对异质信息网络多类型节点与连边、网络结构复杂等特点，通过约简网络中的节点以及连边，得到节点嵌入向量与边嵌入向量，进而构建图神经网络，得到关键节点评估模型，本发明在通过约简网络简化建模过程的同时，能够尽可能保留丰富的语义信息，通过对节点与连边进行表征学习，采用图神经网络建立评估模型，能够提高异质信息网络关键节点评估的准确性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种评估异质信息网络关键节点的方法，其特征在于，包括如下步骤：

步骤一，对异质信息网络进行节点类型约简操作，将异质信息网络约简为单节点类型多关系网络，选定源节点类型、设计对称元路径规则，将选定类型节点之间的对称元路径抽象为新的连边关系，同时根据不同连边关系，划分为不同关系子图，使用基于结构识别的网络表征方法获得不同子图下的节点嵌入向量，最后将不同子图下的节点嵌入向量进行拼接，获得节点嵌入向量，并构建节点特征矩阵；

步骤二，对单节点类型多关系网络进行连边类型约简操作，将单节点类型多关系网络约简为语义化同质网络，根据所述对称元路径规则，通过数据集自带的文本信息，构建语料库，将节点间的语料信息，通过语言预训练模型进行连边关系聚合，获得连边嵌入向量；

步骤三，通过节点嵌入向量与连边嵌入向量得到邻居节点对中心节点的权重影响，构建权重矩阵，使用图卷积网络构建关键节点评估模型，将权重矩阵与节点特征矩阵作为模型输入，使用多层感知机输出重要度得分，得到关键节点排序结果。

2.根据权利要求1所述的评估异质信息网络关键节点的方法，其特征在于，步骤一中，对异质信息网络进行节点类型约简操作具体包括：

设G_HIN=(V, E, A, P)为异质信息网络，其中V表示节点集合，E表示关系集合，A表示节点类型集合，P表示关系类型集合，分析节点与连边的类型，统计节点间的连接情况，设计源节点类型与对称元路径类型，根据对称元路径规则约简网络，得到单节点类型多关系网络G_MHIN=(V, E, P)。

3.根据权利要求2所述的评估异质信息网络关键节点的方法，其特征在于，步骤一中，获得节点嵌入向量，并构建节点特征矩阵具体包括：

根据关系集合中不同关系，将G_MHIN划分为不同子图，得到子图集合G_p={G_p1, G_p2,…,G_pn}，其中n为关系类型数量，G_p1、G_p2、G_pn分别表示第1种关系类型的子图、第2种关系类型的子图、第n种关系类型的子图；