CN111860783A

CN111860783A - 图节点低维表征学习方法、装置、终端设备及存储介质

Info

Publication number: CN111860783A
Application number: CN202010710242.5A
Authority: CN
Inventors: 吴嘉婧; 郑嘉涛; 郑子彬
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-10-30
Anticipated expiration: 2040-07-22
Also published as: CN111860783B

Abstract

本发明公开了一种图节点低维表征学习方法、装置、终端设备及存储介质，图节点低维表征学习方法包括：对图节点进行随机游走采样；注意力机制模型评估节点之间的关联性；深度神经网络概率预测；迭代训练。本发明实施例解决了现有方法中采样算法难以利用到高阶邻居信息，且噪声过多的问题。通过使用随机游走的采样方式，可以方便地控制采样的广度和深度；通过使用注意力机制模型评估节点之间的关联性，减少了噪声的影响；还通过使用深度神经网络进行低维表征的学习，并控制近邻邻居信息的比重，增强习得的节点嵌入表征的稳定性，提高算法运行效果。

Description

图节点低维表征学习方法、装置、终端设备及存储介质

技术领域

本发明属于计算机信息处理技术领域，尤其涉及一种图节点低维表征学习方法、装置、终端设备及存储介质。

背景技术

随着信息技术和互联网行业的发展，信息的形式越来越多样化，数量也与日俱增。在不可胜数的信息中，如何快速、高效地获取用户需要的信息，是一个非常重要且极具挑战的事情。

网络(图)结构数据是由点和边组成的图形，通常用于表示实体之间的关系，在现实应用中广泛存在。由于图具有强大的表示能力，因此在研究中得到了广泛关注。

虽然图具有很强的表示能力，但是图的复杂性也为机器学习算法带来了巨大的挑战。图是由节点组成的，而图上的节点之间存在拓扑和特征上的差异。这些差异导致了一些重要的操作如矩阵运算、卷积等无法直接应用于图上。此外，图上的节点相互之间是有联系的，这也与常见的机器学习中实例之间相互独立是有区别的。由于图具有一定的复杂性，人们使用针对性的方法来对图进行分析，例如传统的基于图论的方法，还有近年来热门的基于深度神经网络的方法。

深度神经网络已经在图像识别、自然语言处理、语音识别等多个问题上提出了效果良好的解决方案。人们将深度神经网络扩展到图域上，使用深度神经网络对图进行编码，编码的粒度可以是图上的节点、子图甚至是整个图。将图编码后可以得到图的低维表征，实现了图从高维非欧几里得域数据降维到低维空间上，并在这个过程中尽可能的提取并保存图的信息。

一些方法仅仅利用了图的结构信息，如DeepWalk、node2vec和LINE等。其中，DeepWalk和node2vec是基于随机游走和Skip-Gram模型的，不同之处仅仅在于node2vec采用了有偏好的通过超参数控制的随机游走。而LINE是利用神经网络和一阶邻居相似性或二阶邻居相似性的方法，默认认为图上有连边的节点标签是相同的，因此可以利用这个特性进行无监督的神经网络训练。随机游走又称随机漫步，指的是以图上的任意一个节点为出发点，随机选择邻居节点作为下一跳节点，移动到邻居节点上，并以邻居节点作为出发点，重复上述过程，最终得到随机游走序列。

还有一些方法利用了结构信息和节点的特征信息，如卷积神经网络、循环神经网络、GAT等。这类方法通常直接聚合节点的一阶邻居信息，通过神经网络的加深间接聚合二阶乃至高阶邻居信息，实验中发现通常仅仅聚合一阶或二阶邻居信息时效果较高，聚合层次较高时效果会急剧下降。其中，GAT使用了注意力机制。注意力机制源于人们在注意到目标或场景时，注意力分布是不一样的。在神经网络上，指的是不同网络节点的特征向量之间的关系大小是不同的。

通常将应用于图的神经网络统称为图神经网络，将对图进行编码获得低维表征的过程称为图嵌入，也称图表征学习。

由于图的规模越来越大，图上的信息越来越复杂，基于不同原则或针对不同方面的采样方法可以改善图嵌入的效果，加快神经网络训练的效率。常见的采样方法有基于节点之间的相似性进行采样、基于拓扑相似性进行采样、基于节点间距离的大小进行采样等多种。

通常为了减小采样造成的误差，会对图进行多次采样，多次采样的结果按照不同的方式进行聚合也会造成不同的结果，例如对图进行多次采样并对每次采样获得的子图进行表征学习，并对多次表征学习的结果进行聚合，或在图的多次采样过程中，将每次采样的结果输入神经网络中进行训练，隐式的聚合了多次采样的结果等。

尽管已经存在了多种多样的图神经网络模型，以及多种多样的高效的采样的算法，但已经存在的采样算法要么难以利用到高阶的邻居信息，要么会在利用高阶邻居时引入过多的噪声，导致模型的效果受到较大的影响。因此，深度神经网络在图嵌入表征学习上的应用存在一定的改进空间。

发明内容

本发明的目的在于提供一种图节点低维表征学习方法、装置、终端设备及存储介质，以解决已经存在的采样算法要么难以利用到高阶的邻居信息，要么会在利用高阶邻居时引入过多的噪声，导致模型的效果受到较大的影响的问题。

为达此目的，本发明采用以下技术方案：

第一方面，本发明提供了一种图节点低维表征学习方法，包括以下步骤：

对图数据的每个节点进行随机游走采样，获得对应的采样节点序列集合；

将节点特征输入注意力机制模型，评估节点与对应的采样节点序列集合之间的关系，获得关系矩阵；

将关系矩阵和节点特征作为深度神经网络的输入，获取深度神经网络的概率预测；

将概率预测的预测值与真实的节点标签的交叉熵误差作为模型训练误差进行迭代训练。

可选地，所述对图数据的每个节点进行随机游走采样，获得对应的采样节点序列集合，包括：

以节点v为中心，从节点v的所有邻居节点出发进行随机游走；

当从节点v的某一邻居节点u出发进行随机游走，获得邻居节点u的随机游走序列Walk_u,i，一个邻居节点对应有随机游走序列Walk_u,1～Walk_u,k；k为预设的超参数，表示从节点u出发进行随机游走的序列数量，每个随机游走序列的长度是相同的，长度为预设的超参数r。

可选地，所述将节点特征输入注意力机制模型，评估节点与对应的采样节点序列集合之间的关系，获得关系矩阵，包括：

使用注意力机制模型评估随机游走获得的游走序列中的节点与中心节点的关系，公式为：

Walk_u,i表示从节点u出发进行随机游走获得的任意一个游走序列，p是该游走序列的长度，F_u,i为与Walk_u,i一一对应的节点的特征值矩阵，W₁与W₂是可训练的权重矩阵，

是注意力机制模型用于优化模型的输出，A_u,i是序列Walk_u,i中每个节点与中心节点v的关系；

将关系A_u,i表示为向量，得到关系向量e_i；

将所有节点的关系向量e_i组合，得到节点与中心节点的关系矩阵E₁。

可选地，所述将关系矩阵和节点特征作为深度神经网络的输入，获取深度神经网络的概率预测，包括：

设置深度神经网络模型，该模型包含一层隐藏层和一层输出层；

使用ReLU作为隐藏层的激活函数，其输入为关系矩阵E₁和节点特征X⁰，公式如下：

H^l表示第l层的输出，同时也是第l+1层的输入，W^l表示第l层的权重矩阵；

使用Softmax作为输出层的激活函数，公式如下：

m表示隐藏层的层数，H^m是第m层的输出，

是模型的最终预测值。

可选地，所述将概率预测的预测值与真实的节点标签的交叉熵误差作为模型训练误差进行迭代训练，包括：

设置交叉熵损失函数为：

n是训练集节点的总数，Y_i和

分别是节点i的真实标签和模型预测标签。

第二方面，本发明提供了一种图节点低维表征学习装置，包括：

采样模块，用于对图数据的每个节点进行随机游走采样，获得对应的采样节点序列集合；

评估模块，用于将节点特征输入注意力机制模型，评估节点与对应的采样节点序列集合之间的关系，获得关系矩阵；

预测模块，用于将关系矩阵和节点特征作为深度神经网络的输入，获取深度神经网络的概率预测；

迭代模块，用于将概率预测的预测值与真实的节点标签的交叉熵误差作为模型训练误差进行迭代训练。

第三方面，本发明提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述图节点低维表征学习方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述图节点低维表征学习方法的步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例提供的一种图节点低维表征学习方法，解决了现有方法中采样算法难以利用到高阶邻居信息，且噪声过多的问题。具体的，通过使用随机游走的采样方式，可以方便地控制采样的广度和深度；通过使用注意力机制模型评估节点之间的关联性，减少了噪声的影响；还通过使用深度神经网络进行低维表征的学习，并控制近邻邻居信息的比重，增强习得的节点嵌入表征的稳定性，提高算法运行效果。

本发明实施例还提供了一种图节点低维表征学习装置、一种终端设备及一种计算机可读存储介质，同样能获得上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容所能涵盖的范围内。

图1为本发明实施例提供的一种图节点低维表征学习方法的流程图；

图2为本发明实施例提供的一种图节点低维表征学习装置的结构图。

具体实施方式

为使得本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本实施例提供了一种图节点低维表征学习方法，包括：

步骤S101、对图节点进行随机游走采样；

步骤S102、注意力机制模型评估节点之间的关联性；

步骤S103、深度神经网络概率预测；

步骤S104、迭代训练。

利用本实施例提供的方案，可以对图节点进行低维表征信息处理，与现有技术相比，通过该方法能够快速、高效地获取用户需要的信息。

在步骤S101中，具体包括：

读取图数据，为每个节点进行随机游走采样，获得相应的采样的节点序列的集合。

采样的方式是以节点为中心，此节点称为中心节点v，也称节点v，从节点v的所有邻居节点出发进行随机游走。当从节点v的某一邻居节点u出发进行随机游走，可以获得邻居节点u的随机游走序列Walk_u,i，一个邻居节点可能对应多个随机游走序列Walk_u,1～Walk_u,k，k是可以设置的超参数，表示从节点u出发进行随机游走的序列数量，每个随机游走序列的长度是相同的，长度是可预设的超参数r。

因此，采样的广度对应的超参数是k，采样的深度对应的超参数是r。

以一个节点为起始点，随机选择一个邻居节点作为下一跳节点，重复这个过程k次，起始点的邻居被采样到的概率也随着k的增大而增大，因此可以控制采样的广度。

随机游走的长度代表了从第一个起始点出发到达的深度，从起始点出发，随机选择一个邻居节点作为下一跳节点，进入该邻居节点后以该邻居节点作为起始点，重复这个步骤r次，到达的节点为从第一个起始点出发经过r次游走进入的第r阶节点，也就是相对于第一个起始点在此随机游走序列中的深度为r的节点，因此可以控制采样的深度。

在步骤S102中，具体包括：

将采样节点集合中节点的特征输入注意力机制模型，评估节点与对应的采样的节点序列集合之间的关系，输出关系矩阵。

步骤S102将步骤S101中获得的随机游走序列转换为特征序列，随机游走序列是节点的序列，每个节点有对应的特征，因此可以将随机游走序列中的节点替换为节点的特征值，获得特征序列，输入到注意力机制模型中，注意力机制网络模型具有一层隐藏层和一层输出层，可以计算得出特征序列中不同维度的特征与中心节点V的相关性，进而得出节点序列中节点与中心节点V的关系。

本实施例中，使用Attention网络作为注意力机制网络，用于评估随机游走获得的游走序列中的节点与中心节点的关系，公式如下：

Walk_u,i＝{v₁,v₂,...,v_p}

F_u,i＝{X_v1,X_v2,...,X_vp}

A_u,i＝softmax(W₁F_u,iW₂)。

Walk_u,i表示从节点u出发进行随机游走获得的任意一个游走序列；p是该游走序列的长度；F_u,i为与Walk_u,i一一对应的节点的特征值矩阵；W₁与W₂是可训练的权重矩阵；

是注意力机制模型用于优化模型的输出；A_u,i是序列Walk_u,i中每个节点与中心节点v的关系。

然后将关系A_u,i表示为向量，得到关系向量e_i，再将所有节点的关系向量e_i组合，得到节点与中心节点的关系矩阵E₁。

需要说明的是，上述Attention网络还可以使用权重矩阵代替，与Attention网络相比，权重矩阵的节点分类准确率下降约43.32％。

注意力机制模型的损失函数使用：

X_v是节点v的真实特征值，注意力机制模型是无监督的。

需要说明的是，从中心节点的所有邻居节点出发进行随机游走得到游走序列，将游走序列输入注意力机制网络中，得到游走序列中的节点与中心节点的关系。从一个邻居节点出发会进行多次随机游走，因此获得的不同的随机游走序列中可能包含相同的节点。同一个节点在不同的随机游走序列中得到与中心节点不同的关系值，将同一个节点的所有关系值进行求和，进而得到该节点对中心节点的关联度大小。将中心节点与随机游走获得的游走序列中的节点的关系A_u,i表示为向量，得到关系向量e_i。将所有节点的关系向量e_i组合最终得到节点与中心节点的关系矩阵E₁。使用关系矩阵E₁计算能减少噪声的原因在于，传统的方式通常直接将邻居矩阵作为输入，把邻居看做是相同权值的，而事实上邻居对节点的影响是不同的，使用注意力机制衡量不同邻居对节点的影响大小，可以减少噪声。

因此，本实施例通过使用注意力机制计算节点之间的关联性，可以减少噪声的影响。

在步骤S103中，具体包括：

将关系矩阵、节点特征作为深度神经网络的输入，经过一层隐藏层的训练和一层输出层，获取深度神经网络概率预测。

进一步的，通过设置深度神经网络模型，该模型包含两层，分别为一层隐藏层和一层输出层。

隐藏层使用线性整流函数ReLU作为其激活函数，输入为关系矩阵E₁和节点特征X⁰,公式如下：

H^l表示第l层的输出，同时也是第l+1层的输入，W^l表示第l层的权重矩阵。

需要说明的是，还可以使用其他方案替代线性整流函数ReLU，作为隐藏层的激活函数。但不同的替代方案与ReLU相比，节点分类准确率影响如下：归一化指数函数Softmax：下降0.08.7785％；线性激活函数(f(x)＝x)：下降0.3％；Elu：下降3.721331％；函数Sigmoid：下降90.3626％；双曲正切Tanh：下降4.86635％；带泄露线性整流Leaky_relu：下降49.617767％；Log_sigmoid：下降61.4119993144233％；Softplus：下降82.061068％。

使用Softmax作为输出层的激活函数，公式如下：

m表示隐藏层的层数，H^m是第m层的输出，

是模型的最终预测值。

需要说明的是，还可以使用其他方案替代Softmax，作为输出层的激活函数。但不同的替代方案与Softmax相比，节点分类准确率影响如下：线性(f(x)＝x)：下降21.3739763％；Elu：下降13.07243789％；Sigmoid：下降4.007591％；Tanh：下降2.767145％；Leaky_relu：下降6.011382622％；Log_sigmoid：下降2.099219218％；Softplus：下降2.4808921％。

在步骤S104中，具体包括：最后使用预测值与真实的节点标签的交叉熵损失函数，使用梯度下降法进行迭代训练，减少训练的误差，改善模型效果。

进一步的，损失函数使用交叉熵损失函数:

n是训练集节点的总数，Y_i和

分别是节点i的真实标签和模型预测标签，注意到这里是多标签的。

优选地，从节点出发的随机游走，是以节点的所有邻居节点分别作为随机游走的起始节点进行游走的。

需要说明的是，还可以使用其他的损失函数，但不同的替代方案与本实施例的交叉熵损失函数相比，节点分类准确率影响如下：均方差损失函数：下降6.393058％；欧式距离损失函数：下降6.1068％；曼哈顿损失函数：下降19.1793147％；余弦损失函数：下降61.6412％。

因此，本实施例还通过使用神经网络进行低维表征的学习，并控制近邻邻居信息的比重(由于越靠近起始点的节点被采样的几率也较大，因此使得越靠近起始点的节点在E₁中占的比重也会越大)，增强习得的节点嵌入表征的稳定性，提高算法运行效果。

请参阅图2所示，在本申请的另一实施例中，提供了一种图节点低维表征学习装置，用于实现上述的图节点低维表征学习方法，包括：

采样模块101，用于对图数据的每个节点进行随机游走采样，获得对应的采样节点序列集合；

评估模块102，用于将节点特征输入注意力机制模型，评估节点与对应的采样节点序列集合之间的关系，获得关系矩阵；

预测模块103，用于将关系矩阵和节点特征作为深度神经网络的输入，获取深度神经网络的概率预测；

迭代模块104，用于将概率预测的预测值与真实的节点标签的交叉熵误差作为模型训练误差进行迭代训练。

本发明实施例提供的一种图节点低维表征学习装置，解决了现有方法中采样算法难以利用到高阶邻居信息，且噪声过多的问题。具体的，通过采样模块101对图数据的每个节点进行随机游走采样，可以方便地控制采样的广度和深度；通过评估模块102，使用注意力机制模型评估节点之间的关联性，减少了噪声的影响；还通过预测模块103和迭代模块104，使用深度神经网络进行低维表征的学习，并控制近邻邻居信息的比重，增强习得的节点嵌入表征的稳定性，提高算法运行效果。

在本申请的另一实施例中，还提供了一种终端设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述图节点低维表征学习方法的步骤。

其中，处理器用于控制该终端设备的整体操作，以完成上述图节点低维表征学习方法中的全部或部分步骤。

存储器用于存储各种类型的数据以支持在该终端设备的操作，这些数据可以包括用于在该终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。

该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

终端设备可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable GateArray，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的图节点低维表征学习方法。

在本申请的另一实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上所述图节点低维表征学习方法的步骤。

例如，该计算机可读存储介质可以为上述包括程序指令的存储器，上述程序指令可由终端设备的处理器执行以完成上述的图节点低维表征学习方法。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。