CN111046907A

CN111046907A - 一种基于多头注意力机制的半监督卷积网络嵌入方法

Info

Publication number: CN111046907A
Application number: CN201911062490.7A
Authority: CN
Inventors: 王旭强; 张旭; 杨青; 刘红昌; 刘乙召; 田雨婷; 郑阳
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2019-11-02
Filing date: 2019-11-02
Publication date: 2020-04-21
Anticipated expiration: 2039-11-02
Also published as: CN111046907B

Abstract

本发明公开了一种基于多头注意力机制的半监督卷积网络嵌入方法，包括：步骤1，输入节点文本内容，使用词向量查询的方法初始化每个词的语义表示；步骤2，构造节点文本编码器，所述节点文本编码器包括位置编码器、多头注意力机制和前馈神经网络位置编码器，节点文本编码器的输出为节点的文本向量表示，其输出为u_T；步骤3，构造节点结构编码器，使用多层图卷积神经网络编码网络结构信息；步骤4，在半监督学习的框架下，将带标签节点的标签信息引入网络嵌入，将标签匹配损失与相似度损失联合优化得到最终的节点表示向量u_R。该方法能更好地捕捉和融合网络的结构信息和外部信息。

Description

一种基于多头注意力机制的半监督卷积网络嵌入方法

技术领域

本发明涉及一种基于多头注意力机制的半监督卷积网络嵌入方法。

背景技术

随着信息技术的发展，互联网中积累了大量网络结构的数据。对这些网络结构数据的分析对各行业的发展具有重要意义，对网络的研究已成为重要的热点问题。网络嵌入已经成为网络分析的一种范式，引起了研究者的广泛关注。其目的是综合利用网络中的特征信息，将网络中的每个节点映射到一个低维向量空间，得到节点的低维向量表示。在得到网络节点的表示向量后，可将其输入已有的算法来完成节点分类、聚类、链接预测等下游任务。例如对城市间交通网络进行链接预测分析，可用于规划城际交通线路。另外，网络结构数据往往具有大量外部信息，例如节点的文本信息与节点标签信息。目前也存在许多融合文本信息的网络嵌入方法，但这些方法一般对文本信息与网络结构信息分别建模，最终简单地拼接两个表示向量得到最终的表示，这导致两种模态的信息难以有机地整合。此外，这些方法使用循环神经网络作为编码器。但是，循环神经网络本身的序列依赖导致其无法实现大规模并行计算。节点标签是另一个重要的外部信息，充分利用标签信息将进一步增强节点向量的表示能力。但现实中，并非所有网络节点都被标记，合理利用标记节点和未标记节点对网络嵌入过程具有重要意义。

网络嵌入是一种新兴的网络分析范式，其目标是学习低维节点表示。传统的网络嵌入算法通常将网络表示为图，并使用数据点的特征向量构建关联图，例如数据的k近邻图。由此，利用关联图可以将数据点嵌入到低维空间中，得到节点的向量表示。基于该思想，大量的网络嵌入方法被提出。然而，这些算法通常依赖于求解邻接矩阵的特征向量，其复杂度至少是节点数的平方，由此导致效率低下，并且难以应用于大规模网络。

近年来，网络嵌入逐渐成为了一个热门的研究课题。DeepWalk(Perozzi B,Al-Rfou R,Skiena S.Deepwalk:Online Learning of Social Representations[C].The20th KDD,New York,USA,August 24-27,2014:701-710.)是第一种将深度学习引入网络嵌入的方法。作为一种基于网络拓扑结构的方法，它在网络上执行截断的随机游走，并使用Skip-Gram(Mikolov T,Sutskever I,Chen K,et al.Distributed Representations ofWords and Phrases and Their Compositionality[C].The 27th NIPS,Lake Tahoe,USA,December 5-10,2014:3111-3119.)学习节点嵌入。Grover等人(Grover A,LeskovecJ.node2vec:Scalable Feature Learning for Networks[C].The 22nd KDD,SanFrancisco,USA,August 13-17,2016:855-864.)提出的Node2Vec对原始的DeepWalk进行改进，通过一个有偏的随机游走来平衡深度优先与广度优先。针对大规模的网络，Tang等人(Tang J,Qu M,Wang M,et al.Line:Large-Scale Information Network Embedding[C].The 24th WWW,Florence,Italy,May 18-22,2015:1067-1077)提出的LINE引入一阶与二阶相似度，从而同时保留了局部与全局的网络结构信息。除了网络的拓扑结构外，节点通常与其自身的属性信息紧密相关，例如文本内容，节点标签等。为了进一步考虑节点的属性信息，Yang等人(Yang C,Liu Z,Zhao D,et al.Network Representation Learning withRich Text Information[C].The 24th IJCAI,Buenos Aires,Argentina,July 25-31,2015:2111-2117.)提出了文本关联的DeepWalk模型(TADW)，在矩阵分解框架下，将节点的内容引入到网络嵌入中。MMDW(Tu C,Zhang W,Liu Z,et al.Max-Margin Deepwalk:Discriminative Learning of Network Representation[C].The 25th IJCAI,New York,USA,July 09-15,2016:3889-3895.)考虑监督标签信息，同时学习网络表示和最大边缘分类器，将标签信息引入学习过程。

虽然现有的相关方法综合考虑了网络拓扑结构和节点属性信息，但是这些方法通常是对属性信息和拓扑结构分别建模，并对两部分表示进行简单拼接以得到最终的表示。

发明内容

针对现有技术中存在的问题，本发明提供一种基于多头注意力机制的半监督卷积网络嵌入方法，其利用多头注意力机制和图卷积神经网络，能充分融合网络拓扑结构、节点的文本内容以及节点的标签信息，进而得到表示性更强的节点向量。

为此，本发明的技术方案如下：

一种基于多头注意力机制的半监督卷积网络嵌入方法，包括顺序执行的下列步骤：

步骤1，输入节点文本内容，使用词向量查询的方法初始化每个词的语义表示；

步骤2，构造节点文本编码器，所述节点文本编码器包括位置编码器、多头注意力机制和前馈神经网络位置编码器，节点文本编码器的输出为节点的文本向量表示，其输出为u_T；

步骤3，构造节点结构编码器，使用多层图卷积神经网络编码网络结构信息；

步骤4，在半监督学习的框架下，将带标签节点的标签信息引入网络嵌入，将标签匹配损失与相似度损失联合优化得到最终的节点表示向量u_R。

其中，步骤1中所述的节点文本，其中节点u的文本信息表示为如下形式：

T_u＝(x_u1,x_u2,…,x_um) (1)

式中：x_ui为第i个词，以随机初始化的d维词向量表示，i＝1-m，m为文本长度。

步骤2中，所述位置编码器位于所述节点文本编码器的底部，用于编码单词的相对位置信息，所述位置编码器形式如下：

P_u＝(p_u1,p_u2,…,p_um) (2)

其中p_ui∈R^m是独热向量，将所述将位置编码器与词向量矩阵进行拼接，得到多头注意力机制的输入，该输入包含词的相对位置关系：

其中：

表示拼接操作，x_ui表示节点u第i个词的词向量。

步骤2中，所述多头注意力机制用于使模型具备联合处理来自不同表示空间信息的能力，在第i个头，基于所述e_u得到三个向量

和

其中

和

是三个全局的参数矩阵，d_m表示第i个头的输入维度，d_m＝d+m＝512；以h表示多头注意力机制中头的个数，则d_k＝d_v＝d_m/h；R代表数域，

表示形状为dm*dk的矩阵。对于第i个头的注意力值，使用如下公式计算：

将多头注意力机制中所有头的输出拼接成一个向量，之后乘以权重矩阵W^o，得到多头注意力机制的输出结果，如下式：

其中

为一可训练的权重矩阵。

所述节点文本编码器的每一层均包含一个全连接的前馈神经网络FFN，所述前馈神经网络由两个使用ReLU的线性变换组成，如下所示：

其中，

和

是节点文本编码器第n层的前馈神经网络的可训练权重与偏差。

步骤3中，所述节点结构编码器使用多层图卷积神经网络编码网络结构信息，同时，节点结构编码器以节点文本信息编码器的输出作为节点结构信息编码器的输入，以此实现节点文本信息与网络结构信息的融合。

在通过节点文本编码器获得节点文本表示向量的基础上，使用图卷积神经网络来建模网络结构，以捕获任意尺度的结构信息，假设编码器由L层组成，第l层的集成过程表示为：

M＝(E+I)D^-1 (9)

其中：

分别是第l层图卷积神经网络的输入和输出向量；

k是向量的维度；

是u_i的子网络

中所有节点的聚合表示；

E,I∈R^|V|×|V|为信息网络的邻接矩阵和相同形状的单位矩阵，

对角矩阵D的目的在于对矩阵进行归一化处理，其元素a_ii＝1+∑_je_ij；m_ji为公式(9)中对称矩阵M第j行i列的元素，表示邻居节点u_j与中心节点u_i的连接，

在第一层图卷积神经网络中，即l＝1时，

步骤4所述的联合优化同时利用了带标签节点与无标签节点，对于无标签节点，其相似度损失函数由两部分组成：描述同边相连节点的文本内容相似度的L_tt，和节点结构编码器输出的表示向量的相似度L_ss，通过α、β控制两部分权重，如以下公式所示：

L_unlabel(u)＝αL_ss(u)+βL_tt(u)

以上公式涉及的条件概率p定义为：

对于带标签节点，首先使用全连接层将节点表示映射到标签空间，得到节点标签的预测分布

并使用如下标签匹配损失实现最小化标签真实分布l_u与预测分布的差别：

其中u^l∈L_l，L_l为带标签节点的集合，Ω为正则化项，带标签节点的损失函数表示为：

L_label(u)＝αL_ss(u)+βL_tt(u)-τL_match(u)

其中，α,β,τ控制每部分的权重；

模型整体的损失函数为：

其中，L_u和L_l分别是无标签节点和带标签节点的集合；

优化这个损失函数最终得到综合了网络结构信息、节点文本信息与标签信息的节点表示。

本发明提供了一种基于多头注意力机制的半监督卷积网络嵌入方法，能更好地捕捉和融合网络的结构信息和外部信息。该方法首先以网络中的边作为样本，分别提取一条边上两个节点对应的子网络；其次，利用多头注意机制作文本编码器，对子网络中各节点的文本进行编码，得到各节点的文本表示向量，多头注意力机制能很好地解决文本的长距离依赖问题，同时可以并行计算；之后将各节点的文本表示向量作为可训练的节点特征输入图卷积神经网络，可以捕获任意尺度的结构信息；最后，以半监督学习的方式将标签信息引入节点表示。模型充分融合了网络的结构、文本与标签信息。

本发明的方法中，基于多头注意力机制学习网络节点的文本表示，使用卷积神经网络建模网络结构，同时在半监督的框架下引入节点标签信息，最终得到节点高质量的表示向量，提升了在下游任务(节点分类、链接预测)上的性能。

附图说明

图1是本发明方法涉及的系统组成示意图；

图2是本发明嵌入方法的流程图。

具体实施方式

下面结合附图对发明的基于多头注意力机制的半监督卷积网络嵌入方法进行详细说明。

参见图1，图中u、v为网络表示学习中常用的表示同边相连的节点的方式。本发明中涉及的数据主要为论文引用网络。网络节点的文本信息为论文的摘要或论文的标题。对于每篇论文的文本内容，将每个词初始化为词向量的形式，作为词的浅层语义表示。

本发明中所述的节点文本编码器包括：位置编码器、多头注意力机制、前馈神经网络三部分。对于词的浅层语义表示，首先使用位置编码器赋予其位置信息，再使用多头注意力机制进行注意力计算，将多头注意力机制中所有头的输出拼接成一个向量，输入一个全连接的前馈神经网络，得到文本的语义向量。

本发明中所述的节点结构编码器由多层堆叠的图卷积神经网络组成。在通过节点文本编码器获得节点文本表示向量的基础上，模型使用图卷积神经网络来建模网络结构，因为它可以捕获任意尺度的结构信息。所述节点结构编码器的输出向量融合了节点的文本信息与结构信息。

由于并非所有节点都具有标签，本发明对带标签节点与无标签节点分别设置不同的损失函数，使用半监督学习的方式引入节点标签信息。通过优化损失，得到综合了结构、文本、标签的节点表示向量。

本发明主要采用自然语言处理与网络嵌入相关的理论与方法对论文引用网络数据进行表示学习，为保证模型的训练与测试，要求所使用的计算机平台配备不低于8G的内存，CPU核心数不低于4个，并安装Python 3.6版本、TensorFlow框架等必备编程环境。

如图2所示，本发明提供的基于多头注意力机制的半监督卷积网络嵌入方法包括顺序执行的下列步骤：

对于步骤1)所述的节点文本，其中节点u的文本信息可表示为如下形式：

T_u＝(x_u1,x_u2,…,x_um) (1)

步骤2中，为了保留输入文本中单词的相对位置信息，需在节点文本编码器得底部构造位置编码器编码单词的相对位置信息。位置编码器可形式化地表示为如下形式：

P_u＝(p_u1,p_u2,…,p_um) (2)

其中p_ui∈R^m是独热向量，将所述将位置编码器与词向量矩阵进行拼接，得到多头注意力机制的输入，这样的输入包含了词的相对位置关系。即：

其中：

表示拼接操作，x_ui表示节点u第i个词的词向量。

独热向量又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

步骤2中，所述多头注意力机制使得模型具备联合处理来自不同表示空间信息的能力。在第i个头，需基于位置编码器的输出e_u得到三个重要的向量：

和

计算公式如下：

其中

和

是三个全局的参数矩阵，d_m表示第i个头的输入维度，本实施例中，d_m＝d+m＝512。以h表示多头注意力机制中头的个数，则d_k＝d_v＝d_m/h；R代表数域，

将多头注意力机制中所有头的输出拼接成一个向量，之后乘一个权重矩阵W^o，即可得到多头注意力机制的输出结果。如下公式所述：

其中

为一个可训练的权重矩阵。

除了多头注意力机制外，节点文本编码器的每一层都包含一个全连接的前馈网络FFN。前馈神经网络由两个使用ReLU的线性变换组成，如下所示：

其中，

和

所述节点结构编码器使用多层图卷积神经网络编码网络结构信息。同时，节点结构编码器以节点文本信息编码器的输出作为节点结构信息编码器的输入，通过这种方式实现了节点文本信息与网络结构信息的融合。

首先给出节点结构编码器中涉及到的“子网络”的概念的定义及“子网络”的两个基本问题。节点u的子网络表示为sub_G_u，由u本身和它的相邻节点组成。称u为中心节点，其余节点为u节点的邻居节点。为保证模型训练时批次大小相同，本发明采样固定数量的邻居节点。在一个子网络中，中心节点与相邻节点的关系是对称的。在u的子网络sub_G_u中，邻居节点u_i包含的信息应该向中心节点u聚合，而在u_i的子网络中情况则相反；其次，同一个子网络中的邻居节点的排列通常是无序的。例如，在u的子网络sub_G_u中有三个邻居u₁、u₂、u₃，其下标是任意的，并不能表示该子网络中邻居节点的优先级。

在通过节点文本编码器获得节点文本表示向量的基础上，模型使用图卷积神经网络来建模网络结构，因为它可以捕获任意尺度的结构信息。假设编码器由L层组成，第l层的集成过程可以表示为：

M＝(E+I)D^-1

其中

分别是第l层图卷积神经网络的输入和输出向量，k是向量的维度。

是u_i的子网络

中所有节点的聚合表示。E,I∈R^|V|×|V|为信息网络的邻接矩阵和相同形状的单位矩阵。对角矩阵D的目的在于对矩阵进行归一化处理，其元素a_ii＝1+∑_je_ij。m_ji为公式(9)中对称矩阵M第j行i列的元素，表示邻居节点u_j与中心节点u_i的连接。在第一层图卷积神经网络中，即l＝1时，

通过图卷积神经网络，模型可以很好地解决子网络的两个基本问题。对称矩阵M可以满足子网络中中心节点与邻居节点的对称连接关系。此外，

具有置换不变性，即改变邻居节点的顺序不会影响聚合过程。随着多层图卷积网络的叠加，每个节点递归地聚合来自每层子网络的信息，并将自己的信息扩散到相邻节点。

步骤2与步骤4的输出分别为u_T和u_R。u_R即为节点的最终表示向量。

步骤4将模型以半监督学习的方式进行优化，同时利用了带标签节点与无标签节点。对于无标签节点，其损失函数由两部分组成，即描述同边相连节点的文本内容相似度的L_tt，和节点结构编码器输出的表示向量的相似度L_ss。α，β控制两部分权重。如以下公式所示：

L_unlabel(u)＝αL_ss(u)+βL_tt(u)

以上公式涉及的条件概率p定义为：

其中u^l∈L_l，L_l为带标签节点的集合，Ω为正则化项。带标签节点的损失函数可表示为：

L_label(u)＝αL_ss(u)+βL_tt(u)-τL_match(u)

其中，α,β,τ控制每部分的权重。

模型整体的损失函数为：

其中，L_u和L_l分别是无标签节点和带标签节点的集合。

优化这个损失函数最终可得到综合了网络结构信息、节点文本信息与标签信息的节点表示。