CN112784918A

CN112784918A - 基于无监督图表示学习的节点识别方法、系统、装置

Info

Publication number: CN112784918A
Application number: CN202110137847.4A
Authority: CN
Inventors: 王威
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-05-11
Anticipated expiration: 2041-02-01
Also published as: CN112784918B

Abstract

本发明属于大数据分析、模式识别和神经网络技术领域，具体涉及一种基于无监督图表示学习的节点识别方法、系统、装置，旨在解决现有基于图神经网络的节点识别方法需要大量的标签样本，在标注样本较少时，造成图神经网络训练困难以及识别精度较低的问题。本系统方法包括获取待识别的数据，作为输入数据；构建输入数据的图结构，得到图结构数据，并通过训练好的多层图神经网络获取所述图结构数据中各节点的特征表示；基于特征表示，通过预训练的分类器得到图结构数据中各节点所属的类别。本发明减少了样本标注的需求，简化了网络训练的难度，并能在少量标记样本的监督下实现具有较高精度的节点识别。

Description

基于无监督图表示学习的节点识别方法、系统、装置

技术领域

本发明属于大数据分析、模式识别和神经网络技术领域，具体涉及一种基于无监督图表示学习的节点识别方法、系统、装置。

背景技术

在过去的几年中，图表示学习已经成为分析图结构数据的主要方法。图表示学习旨在学习一种编码功能，该编码功能可将节点转换为保留图属性和结构特征的低维密集嵌入。传统的无监督图表示学习方法，例如DeepWalk和node2vec，都遵循源自skip-gram模型框架。具体来说，他们首先对短随机游走进行采样，然后通过将它们与其他节点进行对比，在同一游走上强制相邻节点共享相似的嵌入。但是，基于DeepWalk的方法可以看作是重构图邻近矩阵，该矩阵过度强调了在网络结构上定义的邻近信息。

最近，使用图神经网络进行图表示学习受到了极大的关注。但是，随着其蓬勃发展，训练模型时对标签可用性的关注日益增加。尽管如此，现有的GNN模型大多是以监督的方式建立的，这需要大量标记节点进行训练。尽管有些尝试将先前的非监督目标(即矩阵重构)连接到GNN模型，但这些方法仍然严重依赖于预设的接近矩阵。基于此。本发明基于对比学习思想提出了无监督图表示学习的节点识别方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有基于图神经网络的节点识别方法需要大量的标签样本，在标注样本较少时，造成图神经网络训练困难以及识别精度较低的问题，本发明第一方面，提出了一种基于无监督图表示学习的节点识别方法，该方法包括：

步骤S10，获取待识别的数据，作为输入数据；

步骤S20，构建所述输入数据的图结构，得到图结构数据，并通过训练好的多层图神经网络获取所述图结构数据中各节点的特征表示；

步骤S30，基于所述特征表示，通过预训练的分类器得到所述图结构数据中各节点所属的类别；其中，所述多层图神经网络其训练方法为：

步骤A10，获取训练样本数据，并构建训练样本数据的图结构，得到图结构数据，作为第一数据；

步骤A20，在预构建的多层图神经网络中的各层分别对所述第一数据进行预处理，并通过前向传播获取每层图神经网络输出的各节点的特征表示；所述预处理包括边、节点、特征向量元素的随机去除；

步骤A30，选取所述多层图神经网络的最后一层以及其余层中的随机一层，并将选取的两层图神经网络输出的对应位置的节点的特征表示组成正样本对，将选取的两层图神经网络的非对应位置的节点的特征表示以及两层图神经网络的各层中的任意两个节点的特征表示组成负样本对，并计算样本对之间的相似度；

步骤A40，基于所述相似度，通过预构建的损失函数获取对应的损失值，并对所述多层图神经网络进行参数更新；

步骤A50，循环步骤A10-步骤A40，直至得到训练好的多层图神经网络。

在一些优选的实施方式中，所述图结构其包括节点集合、节点连接的边集合、邻接矩阵以及节点的特征向量表示。

在一些优选的实施方式中，步骤A20中“边、节点、特征向量元素的随机去除”，其方法为：

边的随机去除：将所述第一数据的邻接矩阵中的元素以均匀分布采样进行随机置0操作，使得原有的某些节点的连接中断；

节点的随机去除：将所述第一数据中对应的节点集合中的节点以等概率行随机置0操作，使得该节点的特征向量的所有维度值为0；

特征向量元素的随机去除：将所述第一数据的节点的特征向量中的某些元素以等概率置0操作，使得原有维度值为0。

在一些优选的实施方式中，步骤A30中“计算样本对之间的相似度”，其方法为：

其中，sim(x，y)表示样本对之间的相似度，n表示样本对中节点的特征表示的维度，i表示下标，x，y表示样本对中节点的特征表示。

在一些优选的实施方式中，步骤A40中“基于所述相似度，通过预构建的损失函数获取对应的损失值”，其方法为：

其中，

表示损失值，z_i，z_j，z_t分别为第i个、第j个、第t个节点的特征表示，

表示预设的控制参数，1_[t≠i]表示指示函数，t≠i为1，t＝i为0。

在一些优选的实施方式中，所述分类器为二分类分类器，通过最近邻或者逻辑斯蒂回归分类方法训练获取。

本发明的第二方面，提出了一种基于无监督图表示学习的节点识别系统，该系统包括数据获取模块、节点表示模块、类别输出模块；

所述数据获取模块，配置为获取待识别的数据，作为输入数据；

所述节点表示模块，配置为构建所述输入数据的图结构，得到图结构数据，并通过训练好的多层图神经网络获取所述图结构数据中各节点的特征表示；

所述类别输出模块，配置为基于所述特征表示，通过预训练的分类器得到所述图结构数据中各节点所属的类别；其中，所述多层图神经网络其训练方法为；

步骤A30，选取所述多层图神经网络的最后一层以及其余层中的随机一层，并将选取的两层图神经网络的非对应位置的节点的特征表示以及两层图神经网络的各层中的任意两个节点的特征表示组成负样本对，并计算样本对之间的相似度；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并执行以实现上述的基于无监督图表示学习的节点识别方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于无监督图表示学习的节点识别方法。

本发明的有益效果：

本发明减少了样本标注的需求，简化了网络训练的难度，并能在少量标记样本的监督下实现具有较高精度的节点识别。

(1)本发明建立数据的图结构，通过用一个多层图神经网络对该数据进行处理，相邻每层之间包含随机连接去除、随机特征元素去除等操作，使得即使存在各种干扰的条件下也能学到有效的图节点的特征表达。

(2)提取多层图神经网络中层距离相对较远的两层节点的特征表示的输出，两层中对应节点的特征表示组成正样本对，非对应节点的特征表示组成负样本对，对这些样本对进行对比无监督学习，从而获取节点的有效表达。

(3)本发明无需经过复杂的处理，可以直接通过大量无标签样本学习到有效图节点表示，进而在少量标记样本的监督下实现具有较高精度的识别任务，非常便于实际应用。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于无监督图表示学习的节点识别方法的流程示意图；

图2是本发明一种实施例的基于无监督图表示学习的节点识别系统的框架示意图；

图3是本发明一种实施例的多层图神经网络训练流程示意图；

图4是本发明一种实施例的无监督图表示学习的示意图；

图5是本发明一种实施例的节点、边、特征向量元素的随时去除的示意图；

图6是本发明一种实施例的样本对进行无监督对比学习的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的基于无监督图表示学习的节点识别方法，如图1所示，包括以下步骤：

步骤S10，获取待识别的数据，作为输入数据；

为了更清晰地对本发明基于无监督图表示学习的节点识别方法进行说明，下面结合附图对本发明方法一种实施例中各步骤进行展开详述。

下列实施例中先对多层图神经网络、分类器的训练过程进行详述，再对基于无监督图表示学习的节点识别方法获取节点的类别的过程进行详述。

1、多层图神经网络的训练过程，如图3所示

在本发明中，通过无监督图表示方法对多层图神经网络进行训练，如图4所示，包含一个输入层和多个隐含层，输入层是一个图结构数据，包含多个图节点及其连接边，连接边上的权重和连接关系共同构成了邻接矩阵，每个节点都有对应的特征向量表示，输入层经过一个图神经网络(GCN)得到第一层图节点的特征表示，依次类推，可以通过多个图神经网络得到多层图节点的特征表示，选择第一层图节点的特征表示和最后一层第k层图节点的特征表示，进入无监督对比学习，具体步骤如下：

在本实施例中，获取训练样本数据，并构建的训练样本数据的图结构，如式(1)所示：

G＝(V，E) (1)

其中，V＝{v₁，v₂，...v_N}，表示节点的集合，E＝{v_i×v_j}，表示节点连接的边集合，i，j表示下标，G表示图结构，另外在本发明中还需要另外定义一个邻接矩阵C，C∈R^N×N，节点的特征向量表示(初始表示)构建的特征矩阵为H∈R^N×F，N表示节点的集合中节点数量，F表示节点的特征向量表示的维度。在无监督学习过程中，不需要节点的类别标记，将图结构数据(记为第一数据)作为输入层输入到多层图神经网络中。

在本实施例中，在相邻两个图神经网络层之间有随机边去除、随机结点去除、随机特征向量的元素去除等操作层，确保在有各种噪声干扰条件下也能学到有效结点表示，如图5所示，在第i层、第j层进行随机边去除、随机结点去除、随机特征向量的元素去除的预处理操作。

边的随机去除：将图结构数据的邻接矩阵C中的元素以等概率(即均匀分布采样)进行随机置0操作，使得原有的某些节点的连接中断；

节点的随机去除：将图结构数据中对应的节点集合中的节点以等概率行随机置0操作，使得该节点的特征向量的所有维度值为0；

特征向量元素的随机去除：将图结构数据的节点的特征向量中的某些元素以等概率置0操作，使得原有维度值为0。

预处理操作完成后，通过前向传播获取每层图神经网络输出的各节点的特征表示，具体如下：

图卷积神经网络是一类非常典型的图神经网络，下面以图卷积神经网络第k层(本发明中图卷积神经网络优选设置为k层)为例介绍实现过程，如式(2)所示：

其中，θ为图卷积神经网络权重参数，

分别表示第k层、k+1层的输出的节点的特征向量表示，

表示v_i的邻域节点集合。

进一步经过非线性函数，也可以考虑其跳跃连接形式，第k+1层的最终输出的节点的特征表示

作为第二表示，如式(3)所示：

其中，σ为ReLu函数的变体形式，

表示第一层节点i的特征表示。

通过多层图神经网络的前向传播，获取各层输出的节点的特征表示{h¹，h²，...，h^k}。

在本实施例中，选取层距离较远的两层图神经网络节点的特征表示(第二表示)的输出，譬如选择第一层输出

和第k层输出

作为后续对比学习的对象，如图6所示。值得说明的是，在本发明中，在选取两层图神经网络时，多层图神经网络的最后一层必须选择，另外一层从其余层中随机选取。

选取的两层图神经网络中对应位置的节点的特征表示形成正样本对，选取的两层图神经网络中非对应位置的节点的特征表示以及两层图神经网络的各层中的任意两个节点的特征表示形成负样本对，并计算这些样本对的相似度。其中，正样本对定义为

其中，i＝1,…,N，负样本对定义为

和

i≠j。

样本对之间的相似度的计算，如公式(4)所示：

其中，sim(x，y)表示样本对之间的相似度，n表示样本对中节点的特征表示的维度，x，y表示样本对中节点的特征表示(第二表示)。例如，正样本对中的x，y即分别对应

在本实施例中，建立对比学习的损失函数并最小化该函数，训练学习多层图神经网络的权重参数，直至损失函数收敛至稳定状态。

损失函数如公式(5)所示：

其中，

并通过随机梯度下降方法来最小化该损失函数，并对多层图神经网络进行参数更新。

在本实施中，循环对多层图神经网络进行参数更新，直至得到收敛至稳定的多层图神经网络，作为最终训练好的多层图神经网络。

另外，需要说明的是，下述的节点识别只是运用训练好的多层图神经网络进行识别的一种实施例，在其他实施例中，基于本方明无监督图表示学习方法训练的多层图神经网络，结合不同的分类器可以实现图种类识别、节点连接关系预测等识别任务。

2、分类器的训练过程

在多层图神经网络训练完成后，通过训练好的多层图神经网络提取训练样本数据、测试样本数据在最后一层图神经网络的输出h^k，作为各节点的特征表示。

基于提取的节点的特征表示，使用最近邻或者逻辑斯蒂回归等分类方法学习一个二分类的分类器，实现对节点的分类。

3、基于无监督图表示学习的节点识别方法

步骤S10，获取待识别的数据，作为输入数据；

在本实施例中，先获取待识别的数据，作为输入数据。

在本实施例中，构建输入数据的图结构，得到图结构数据，并通过上述训练好的多层图神经网络获取图结构数据中各节点的特征表示。

步骤S30，基于所述特征表示，通过预训练的分类器得到所述图结构数据中各节点所属的类别。

基于各节点的特征表示，通过训练好的分类器对图结构数据中的节点的特征表示进行分类，将输出的类属性概率的最大值作为节点所属的类别。

另外，为了证明本发明方法的有效性，在加州大学圣克鲁斯分校公开的标准数据集Cora上进行实验验证。Cora数据集中的每篇论文都引用或被引于另一篇论文，引文网络共由5429个链接组成，整个数据集共有2708篇论文，分为基于案例，遗传算法，神经网络，概率方法，增强学习，规则学习和理论这七个类别。数据集中的每篇论文都有一个0或1的描述性信息，用于表明词汇表中是否存在相应的词。词汇表在去除停用词后共包含1433个唯一词，删除了文档中出现频率小于10的所有单词。在该数据集上实现对每篇文章进行类别划分，即对节点的7分类任务，所有实验均采用标准实验设置。实验结果及对比数据如表1所示，我们与现有的多个方法进行了比较，结果表明我们提出的方法在直推式(TransductiveLearning)设置下取得了最好的结果。

表1

方法	精度(％)	方法	精度(％)
				Raw Feature	64.8	VGAE	76.9
Node2vec	74.8	DGI	82.6
				DeepWalk	75.7	我们的方法	84.5

表1中的Node2vec、DeepWalk表示Node2vec、DeepWalk算法，即随机游走算法，RawFeature表示采用原始节点特征进行分类，VGAE表示Variational graph auto-encoders(可参考文献：“Kipf,T.N.；and Welling,M.2016b.Variational graphautoencoders.arXiv preprint arXiv:1611.07308”)，DGI表示Deep Graph Infomax(详见参考文献：“Velickovic,P.；Fedus,W.；Hamilton,W.L.；Li`o,P.；Bengio,Y.；and Hjelm,R.D.2019.Deep Graph Infomax.In ICLR,(Poster).”)。

本发明第二实施例的一种基于无监督图表示学习的节点识别系统，如图2所示，包括：数据获取模块100、节点表示模块200、类别输出模块300；

所述数据获取模块100，配置为获取待识别的数据，作为输入数据；

所述节点表示模块200，配置为构建所述输入数据的图结构，得到图结构数据，并通过训练好的多层图神经网络获取所述图结构数据中各节点的特征表示；

所述类别输出模块300，配置为基于所述特征表示，通过预训练的分类器得到所述图结构数据中各节点所属的类别；其中，所述多层图神经网络其训练方法为；

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于无监督图表示学习的节点识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于无监督图表示学习的节点识别方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于无监督图表示学习的节点识别方法。

所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。