CN115658971A

CN115658971A - 基于注意力机制的多层异质网络节点重要度评估方法

Info

Publication number: CN115658971A
Application number: CN202211275840.XA
Authority: CN
Inventors: 崔辉; 刘琳岚
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-01-31

Abstract

本发明公开了一种基于注意力机制的多层异质网络节点重要度评估方法，特征聚合采用图卷积模型以及注意力机制对同种类型节点以及不同类型的节点特征进行聚合，得到节点的嵌入向量，之后将嵌入向量输入到多层感知机当中拟合H‑index排名。本发明为异质网络构建了特征矩阵，从拓扑结构以及语义结构上聚合节点的特征，发挥了神经网络的优势，提取节点的高阶信息，通过注意力机制对不同类型的节点赋予不同的权重，以此提高节点重要度评估的有效性以及准确性。

Description

基于注意力机制的多层异质网络节点重要度评估方法

技术领域

本发明涉及异质网络关键节点技术领域，特别是涉及一种基于注意力机制的多层异质网络节点重要度评估方法。

背景技术

现实世界中很多复杂系统都可以抽象成复杂网络的形式，为了表达出现实世界中实体与关系的不同，可以将现实世界中的复杂系统建模为异质网络，如移动通信网络、蛋白质结构网络、电子商务网络、学术网络、社交网络等，这些抽象而成的网络覆盖到了人们生活的方方面面，研究复杂网络的过程也就是在研究现实生活中的实际系统。

异质网络是融合信息的有效工具，不仅可以融合不同类型对象及其交互，而且可以融合异构数据源的信息。异质网络中多类型对象和关系并存，包含丰富的结构和语义信息，因此，从丰富的信息当中挖掘有价值的数据是一个值得研究的领域，抓住这些隐藏的、有价值的信息可以推动一个行业的发展。快速解决上述问题的关键就是在网络中找到对信息传播起到关键作用的节点或说对信息的扩散最有影响力的节点，这类节点被称作“关键节点”。关键节点一般数量较少，但其影响力却可以快速地波及到整个网络。在异质信息网络分析中，准确的进行节点重要度评估，对于维持整个网络的稳定有着重要的意义。重要度高的节点受到破坏影响到的是整个系统，可能致使整个网络崩溃。对重要节点进行额外防护，就能降低系统受到破坏的风险。总的来说，衡量节点在异质网络中的重要度，是网络科学的一个重要研究方向，拥有重大的理论和现实意义。

现有的一些异质网络节点重要度评估方法多为对同质网络方法的改进或是设计了基于元路径的评价指标，往往会忽略了异质网络中的语义信息或高阶特征，影响了节点重要度评估的有效性和准确性。

发明内容

针对上述问题，本发明的目的在于提出一种基于注意力机制的多层异质网络节点重要度评估方法，将深度学习与节点重要度评估相结合，提高节点重要度评估的有效性和准确性。

本发明采用的技术方案如下：

一种基于注意力机制的多层异质网络节点重要度评估方法，应用于异质网络，技术方案如下：首先根据节点类型将异质网络建模为多层网络，得到层内邻接矩阵；通过计算节点的度、K-shell以及节点类型编码等特征，构造异质网络特征矩阵；同一层内节点，通过图卷积神经网络对节点特征进行聚合，以表征同类型节点间影响力；通过基于元路径的随机游走，得到包含语义的节点序列，利用注意力机制进行层间特征聚合，以表征不同节点间影响力，特征聚合过程即可得到节点的嵌入向量；将节点嵌入向量输入到多层感知机当中，拟合引文网络中H-index指标。该方法具体包括如下步骤：

S1，根据节点类型将异质网络建模为多层网络，同一层内节点类型相同，不同层内节点类型不同，层内节点对间权重由通过元路径所产生的连接次数决定，层间节点对间权重则表达节点间是否存在连接关系，通过分层网络建立层内邻接矩阵以及特征矩阵，所选取特征将应用于特征聚合过程；

S2，选择一条覆盖节点类型最多的元路径，通过基于元路径的随机游走对节点进行采样，通过图卷积对同一层内的节点特征进行聚合，图卷积层的层数将影响聚合的邻居深度，对随机游走采样到的节点设置窗口大小，得到多组训练数据，通过注意力机制对不同类型节点特征进行聚合，得到节点的嵌入向量；

S3，提取引文网络数据集中的H-index指标，将节点的嵌入向量输入到多层感知机中拟合H-index指标，训练节点重要度评估模型。

上述基于注意力机制的多层异质网络节点重要度评估方法，其中，步骤S1 中，根据节点类型将异质网络建模为多层网络，通过节点对之间的连接关系设置权重，构建层内邻接矩阵，选择节点类型编码、节点主题词编码、节点的度以及节点的K-shell值作为节点特征，构建每一层的特征矩阵。

上述基于注意力机制的多层异质网络节点重要度评估方法，其中，步骤S1 具体包括：

S11，设G＝(V,E,φ,ψ)为给定的异质网络，其中，

表示节点集，

表示边集合，k＝1,2,3...表示为第k层网络，

表示第k 层网络中的具体节点，

表示第k层网络中的具体的边，N_k为第k层网络中的节点个数，M_k为第k层网络中的边的条数，φ:V→A为节点类型映射，V为节点集合，A为节点类型集合，φ为映射函数，表示V中的某个节点的类型可以映射到节点类型集合A，ψ:E→R为边类型映射，E为边集合，R为边类型集合，ψ为映射函数，表示E中的某条边的类型可以映射到边类型集合R，对于异质网络|A|+|R|>2；定义权重矩阵W，元路径P，

表示第k层节点i,j之间的权重，

的值即为元路径P下的连接路径数；定义连接状态矩阵

C_i,j表示连接状态矩阵C第i行第j列的元素即节点i,j的连接状态，C_i,j∈{0,1}，若节点i,j间存在连边，则C_i,j＝1，否则C_i,j＝0；

S12，为每一层内网络构建特征矩阵，选择节点度中心性、K-shell指标、节点类型编码以及节点主题词编码作为节点特征；第k层网络第i个节点的度中心性用

表示，第k层网络第i个节点的K-shell值用

表示，将度中心性以及 K-shell标准化作为节点的拓扑特征，异质网络中节点类型不唯一，因此需要提取出网络中所有节点类型，另外对于每个节点都有相应的主题词(比如引文网络中作者以及文章的研究领域)，使用独热编码(onehot)对节点类型以及节点主题词进行编码，作为节点的语义特征。结合上述特征，构建第k层网络的特征矩阵，用X^k表示。

上述基于注意力机制的多层异质网络节点重要度评估方法，其中，步骤S2 中，选择一条覆盖节点类型最多的元路径，通过基于元路径的随机游走进行采样，得到采样节点集合，对每一层网络中的节点采用图卷积进行特征聚合，图卷积层的层数记为N_Conv，图卷积层的层数即为聚合邻居的深度，根据采样节点集合提取出图卷积层聚合之后的特征向量，使用注意力机制对节点集合中不同类型的节点进行特征聚合，聚合后的特征向量作为节点的嵌入向量。

上述基于注意力机制的多层异质网络节点重要度评估方法，其中，步骤S2 具体包括：

S21，给定一个元路径集合P，元路径应覆盖尽可能多的节点类型，以考虑更丰富的语义信息，采用基于元路径的随机游走进行节点采样，通过采样会将节点间的跨层连接考虑在内，进而考虑到异质网络中存在的语义信息，采样的邻居节点集合U_t+1(v_t)中的节点首先要满足跨层间存在连接，其次待采样节点应该满足元路径所限定的节点类型，即t+1类型，节点的采样转移概率如下式所示：

其中，待采样节点为t+1类型，

表示邻居节点中类型为t+1的节点集合，即若下一节点vⁱ⁺¹在集合

中，且与当前节点vⁱ有连接，则可以被采样，采样概率为

若下一节点vⁱ⁺¹与当前节点vⁱ无连接或者下一节点vⁱ⁺¹与当前节点vⁱ有连接但节点类型不是t+1，则节点vⁱ⁺¹不能被采样，通过上述采样过程，即可得到元路径P下的采样节点集合V_P，设置窗口大小ws，则在后续的注意力聚合中每次聚合ws个不同类型节点的特征；

S22，通过图卷积层对同一层内的节点特征进行聚合，对于第k层网络，有度矩阵D^k以及权重矩阵W^k，考虑到节点自身特征的重要性，在度矩阵以及权重矩阵中加入自连接，令

I为单位矩阵，则图卷积层特征聚合的方式如公式所示：

若要聚合多阶邻居，则需要多个图卷积层，图卷积层数为N_Conv，根据小世界理论，一般情况下取N_Conv<5；

S23，完成层内特征聚合之后，从采样节点集合当中根据ws大小选择节点，保证所选择的每一组节点的首个节点与待评估的节点类型一致，假设在某条元路径下所选择的一组节点为{v₁,v₂,...,v_ws}，从图卷积层的结果Z中选择节点所对应的特征向量H＝{h₁,h₂,...,h_ws}，使用键值对注意力机制进行不同类型节点间特征聚合，使用查询向量q和相应的键key_i来计算注意力系数a_i，计算方式描述为下式：

将节点的特征向量输入到神经网络线性层中，可以得到查询向量q和相应的键值向量key_i，其中，s(k_i,q)为计算键值向量和查询向量的相似性函数，一般选择为预先相似性，计算节点i的特征向量与其他节点特征向量的相似性后，通过 softmax归一化后得到注意力系数，将对应的值进行加权融合，得到节点v_i聚合之后的特征向量ev_i即为节点的嵌入向量，计算方式如下：

对于待排序类型的节点，每个节点都能够得到节点的嵌入向量，嵌入向量即包含了结构特征和语义特征。

上述基于注意力机制的多层异质网络节点重要度评估方法，其中，步骤S3 中，提取引文网络数据集中的H-index指标作为节点重要度值，将节点的嵌入向量输入到多层感知机当中拟合H-index指标得到节点重要度评估模型。

上述基于注意力机制的多层异质网络节点重要度评估方法，其中，步骤S3 具体包括：

S31，提取引文网络数据集当中的H-index指标作为节点重要度真实值，对引文网络中的作者类型节点进行重要度评估，将作者类型节点的嵌入向量输入到多层感知机当中，拟合H-index指标；

S32，多层感知机的输出拟合的H-index值y_i'，损失函数采用均方误差，即

其中，y_i为节点i的H-index真实值，y_i'为节点i的H-index拟合值，以H-index 真实值和拟合值的均方误差最小化为优化目标，通过反向传播更新图卷积层的权重矩阵以及注意力机制中的权重矩阵，得到最终的节点重要度评估模型。

根据本发明提供的基于注意力机制的多层异质网络节点重要度评估方法，特征聚合采用图卷积模型以及注意力机制对同种类型节点以及不同类型的节点特征进行聚合，得到节点的嵌入向量，之后将嵌入向量输入到多层感知机当中拟合H-index排名。本发明为异质网络构建了特征矩阵，从拓扑结构以及语义结构上聚合节点的特征，发挥了神经网络的优势，提取节点的高阶信息，通过注意力机制对不同类型的节点赋予不同的权重，以此提高节点重要度评估的有效性以及准确性。

附图说明

图1为本发明整体流程示意图；

图2为异质网络分层建模示意图；

图3为节点嵌入及节点重要度模型示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于注意力机制的多层异质网络节点重要度评估方法，整体流程图如图1所示，首先根据节点类型将异质网络建模为多层网络，得到层内邻接矩阵；通过计算节点的度、K-shell以及节点类型编码等特征，构造异质网络特征矩阵；同一层内节点，通过图卷积神经网络对节点特征进行聚合，以表征同类型节点间影响力；通过基于元路径的随机游走，得到包含语义的节点序列，利用注意力机制进行层间特征聚合，以表征不同节点间影响力，特征聚合过程即可得到节点的嵌入向量；将节点嵌入向量输入到多层感知机当中，拟合引文网络中H-index指标，得到节点重要度评估模型。使用模型评估数据集中的节点重要度，使用SIR模型进行模型有效性的验证。本发明中将以引文网络为例阐述具体实施方式，引文网络中包含作者、论文以及会议三种类型节点，该方法具体包括步骤S1～S3：

S1，将异质网络建模为多层网络，同一层内节点类型相同，不同层内节点类型不同，如图2所示的引文网络中(图2中以引文网络为例，author1、author2 等表示作者类型节点，paper1、paper2等表示作者类型节点，conference1、 conference 2表示会议类型节点，建模为分层网络后，从上至下依次为作者类型节点网络层、论文类型节点网络层以及会议类型节点网络层)，根据作者、文章和会议三种节点类型将网络分层。层内节点对间权重由通过元路径所产生的连接次数决定，层间节点对间权重则表达节点间是否存在连接关系。通过分层网络建立层内邻接矩阵以及特征矩阵，所选取特征将应用于特征聚合过程；

S2，特征聚合部分的流程如图3所示，图3中(a)为个网络层同层内特征聚合过程，图3中(b)为对采样节点进行注意力聚合的过程，图3中(c)表示多层感知机拟合H-index指标的过程。通过图卷积对同一层内的节点特征进行聚合，图卷积层的层数将影响聚合的邻居深度。选择一条覆盖节点类型最多的元路径，通过基于元路径的随机游走对节点进行采样。对随机游走采样到的节点设置窗口大小，得到多组训练数据，通过注意力机制对不同类型节点特征进行聚合，得到节点的嵌入向量。

S3，如图3中(c)所示提取引文网络数据集中的H-index指标，将节点的嵌入向量输入到多层感知机中拟合H-index指标，训练节点重要度评估模型。

S4，使用得到的模型对数据集中的节点重要度进行评估，通过SIR实验验证节点重要度评估的有效性。

其中，在步骤S1中，根据节点类型将异质网络建模为多层网络，通过节点对之间的连接关系设置权重，构建层内邻接矩阵，选择节点类型编码、节点主题词编码、节点的度以及节点的K-shell值作为节点特征，构建每一层的特征矩阵。

步骤S1具体包括：

S11，设G＝(V,E,φ,ψ)为数据集中的网络结构，，根据φ(v_i)的不同将G建模为多层网络，其中，

表示节点集，E＝{e₁,e₂,e₃,...,e_M}表示边集合，k＝1,2,3... 表示为第k层网络，

表示第k层网络中的具体节点，

表示第k层网络中的具体的边，N_k为第k层网络中的节点个数，M_k为第k层网络中的边的条数，φ:V→A为节点类型映射，V为节点集合，A为节点类型集合，φ为映射函数，表示V中的某个节点的类型可以映射到节点类型集合A，ψ:E→R为边类型映射，E为边集合，R为边类型集合，ψ为映射函数，表示E中的某条边的类型可以映射到边类型集合R，对于异质网络|A|+|R|>2。定义权重矩阵W，元路径P，

表示第k层节点i,j之间的权重，

的值即为元路径P下的连接路径数。定义连接状态矩阵

C_i,j表示连接状态矩阵C第i行第j列的元素即节点i,j的连接状态，C_i,j∈{0,1}，若节点i,j间存在连边，则C_i,j＝1，否则C_i,j＝0。

S12，为每一层内网络构建特征矩阵，选择节点度中心性、K-shell指标、节点类型编码以及节点主题词编码作为节点特征。第k层网络第i个节点的度中心性用

表示，第k层网络第i个节点的K-shell值用

表示，将度中心性以及 K-shell标准化作为节点的拓扑特征。异质网络中节点类型不唯一，因此需要提取出网络中所有节点类型，另外对于每个节点都有相应的主题词(比如引文网络中作者以及文章的研究领域)，使用onehot对节点类型以及节点主题词进行编码，作为节点的语义特征。结合上述特征，构建第k层网络的特征矩阵，用X^k表示。

在步骤S2中，对每一层网络中的节点采用图卷积进行特征聚合，图卷积层的层数记为N_Conv，图卷积层的层数即为聚合邻居的深度。选择一条覆盖节点类型最多的元路径P，比如在引文网络Aminer数据集当中，可以选择APCPA作为采样过程中的元路径，通过基于元路径的随机游走进行采样，得到采样节点集合。根据采样节点集合提取出图卷积层聚合之后的特征向量，使用注意力机制对节点集合中不同类型的节点进行特征聚合，聚合后的特征向量作为节点的嵌入向量。

步骤S2具体包括：

S21，给定一个元路径集合P，元路径应覆盖尽可能多的节点类型，以考虑更丰富的语义信息，采用基于元路径的随机游走进行节点采样，通过采样会将节点间的跨层连接考虑在内，进而考虑到异质网络中存在的语义信息，采样的邻居节点集合U_t+1(v_t)中的节点首先要满足跨层间存在连接，其次待采样节点应该满足元路径所限定的节点类型，即_t+1类型，节点的采样转移概率如公式所示：

其中，待采样节点为t+1类型，

中，且与当前节点vⁱ有连接，则可以被采样，采样概率为

若下一节点vⁱ⁺¹与当前节点vⁱ无连接或者下一节点vⁱ⁺¹与当前节点vⁱ有连接但节点类型不是t+1，则节点vⁱ⁺¹不能被采样。通过上述采样过程，即可得到元路径P下的采样节点集合V_P，设置窗口大小ws，则在后续的注意力聚合中每次聚合ws个不同类型节点的特征。

I为单位矩阵，则图卷积层特征聚合的方式如公式所示：

若要聚合多阶邻居，则需要多个图卷积层，图卷积层数为N_Conv，根据小世界理论，一般情况下取N_Conv<5。

将节点的特征向量输入到神经网络线性层中，可以得到查询向量查询向量_q和相应的键值向量key_i，其中，s(k_i,q)为计算键值向量和查询向量的相似性函数，一般选择为预先相似性，计算节点i的特征向量与其他节点特征向量的相似性后，通过softmax归一化后得到注意力系数，将对应的值进行加权融合，可以得到节点v_i聚合之后的特征向量ev_i即为节点的嵌入向量，计算方式如下：

在步骤S3中，提取引文网络数据集中的H-index指标作为节点重要度值，将节点的嵌入向量输入到多层感知机当中拟合H-index指标得到节点重要度评估模型。

步骤S3具体包括：

S31，提取引文网络数据集当中的H-index指标作为节点重要度真实值，对引文网络中的作者类型节点进行重要度评估，将作者类型节点的嵌入向量输入到多层感知机当中，拟合H-index指标。

S32，多层感知机输出拟合的H-index值y_i'，损失函数采用均方误差，即

其中，y_i为节点i的H-index真实值，y_i'为节点i的H-index拟合值，以H-index 真实值和拟合值的均方误差最小化为优化目标，通过反向传播更新图卷积层的权重矩阵以及注意力机制中的权重矩阵，得到最终的节点重要度评估模型，模型中的权重矩阵以及超参数也将确定。

S33，将新的数据集中的数据输入到节点重要度评估模型中，即可得到待评估类型节点的节点重要度排序。

在步骤S4中，使用SIR模型对节点重要度排序的有效性进行验证。选择节点重要度排序中的重要度前K(top-K)节点，为其设置感染率、恢复率等参数，通过SIR传播模型模拟信息传播的过程，得到信息从top-K节点出发对整个网络的覆盖率。

通过上述的基于注意力机制的多层异质网络节点重要度评估方法，首先对异质网络进行合理的建模，为节点选择不同的特征构建特征矩阵，通过特征聚合过程对同类型以及不同类型的节点特征进行聚合，得到节点的嵌入向量，将节点的嵌入向量输入到多层感知机当中拟合H-index指标得到节点重要度评估模型，该方法将深度学习与节点重要度评估任务相结合，提高了节点重要度评分的有效性以及准确性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于注意力机制的多层异质网络节点重要度评估方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于注意力机制的多层异质网络节点重要度评估方法，其特征在于，步骤S1中，根据节点类型将异质网络建模为多层网络，通过节点对之间的连接关系设置权重，构建层内邻接矩阵，选择节点类型编码、节点主题词编码、节点的度以及节点的K-shell值作为节点特征，构建每一层的特征矩阵。

3.根据权利要求2所述的基于注意力机制的多层异质网络节点重要度评估方法，其特征在于，步骤S1具体包括：

S11，设G＝(V,E,φ,ψ)为给定的异质网络，其中，

表示节点集，

表示边集合，k＝1,2,3...表示为第k层网络，

表示第k层网络中的具体节点，

表示第k层节点i,j之间的权重，

的值即为元路径P下的连接路径数；定义连接状态矩阵

表示，第k层网络第i个节点的K-shell值用

表示，将度中心性以及K-shell标准化作为节点的拓扑特征，结合上述特征，构建第k层网络的特征矩阵，用X^k表示。

4.根据权利要求3所述的基于注意力机制的多层异质网络节点重要度评估方法，其特征在于，步骤S2中，选择一条覆盖节点类型最多的元路径，通过基于元路径的随机游走进行采样，得到采样节点集合，对每一层网络中的节点采用图卷积进行特征聚合，图卷积层的层数记为N_Conv，图卷积层的层数即为聚合邻居的深度，根据采样节点集合提取出图卷积层聚合之后的特征向量，使用注意力机制对节点集合中不同类型的节点进行特征聚合，聚合后的特征向量作为节点的嵌入向量。

5.根据权利要求4所述的基于注意力机制的多层异质网络节点重要度评估方法，其特征在于，步骤S2具体包括：

S21，给定一个元路径集合P，采用基于元路径的随机游走进行节点采样，通过采样会将节点间的跨层连接考虑在内，进而考虑到异质网络中存在的语义信息，采样的邻居节点集合U_t+1(v_t)中的节点首先要满足跨层间存在连接，其次待采样节点应该满足元路径所限定的节点类型，即t+1类型，节点的采样转移概率如下式所示：

其中，待采样节点为t+1类型，

中，且与当前节点vⁱ有连接，则可以被采样，采样概率为

I为单位矩阵，则图卷积层特征聚合的方式如公式所示：

若要聚合多阶邻居，则需要多个图卷积层，图卷积层数为N_Conv；

将节点的特征向量输入到神经网络线性层中，可以得到查询向量q和相应的键值向量key_i，其中，s(k_i,q)为计算键值向量和查询向量的相似性函数，计算节点i的特征向量与其他节点特征向量的相似性后，通过softmax归一化后得到注意力系数，将对应的值进行加权融合，得到节点v_i聚合之后的特征向量ev_i即为节点的嵌入向量，计算方式如下：

6.根据权利要求5所述的基于注意力机制的多层异质网络节点重要度评估方法，其特征在于，步骤S3中，提取引文网络数据集中的H-index指标作为节点重要度值，将节点的嵌入向量输入到多层感知机当中拟合H-index指标得到节点重要度评估模型。

7.根据权利要求6所述的基于注意力机制的多层异质网络节点重要度评估方法，其特征在于，步骤S3具体包括：

其中，y_i为节点i的H-index真实值，y_i'为节点i的H-index拟合值，以H-index真实值和拟合值的均方误差最小化为优化目标，通过反向传播更新图卷积层的权重矩阵以及注意力机制中的权重矩阵，得到最终的节点重要度评估模型。