CN115659239A

CN115659239A - 基于特征提取强化的高鲁棒性异质图节点分类方法及系统

Info

Publication number: CN115659239A
Application number: CN202211323554.6A
Authority: CN
Inventors: 樊谨; 王则昊; 张心怡; 葛岩; 邬惠峰; 孙丹凤
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-01-31

Abstract

本发明公开了一种基于特征提取强化的高鲁棒性异质图节点分类方法及系统，涉及异质图节点分类技术领域。该方法包括：获取目标异质图数据；将所述目标异质图数据输入到训练好的鲁棒性特征强化框架模型中，以对所述目标异质图数据中的节点进行分类；所述训练好的鲁棒性特征强化框架模型是基于离散映射模块、协作分离模块、异质图节点分类器、超参优化模块和样本数据集确定的；所述样本数据集包括多个异质图数据集以及相应的节点分类标签；所述节点分类标签包括：节点特征、邻接矩阵和元路径。本发明通过使用鲁棒性特征强化框架模型，优化异质图神经网络的特征嵌入的学习性能，以解决现有模型特征提取能力不足、精度不足和实验结果不稳定等问题。

Description

基于特征提取强化的高鲁棒性异质图节点分类方法及系统

技术领域

本发明涉及异质图节点分类技术领域，特别是涉及一种基于特征提取强化的高鲁棒性异质图节点分类方法及系统。

背景技术

图结构数据(Graph-based data)普遍存在于现实世界中，如社交网络、书籍目录等。相比深度学习模型如递归神经网络和卷积神经网络，图神经网络在图结构数据的处理上有着更加优秀的表现，它表现出更好的性能和广泛的适用性。图神经网络(Graph NeuralNetwork，GNN)拥有着良好的特征提取能力，可以从图结构数据中学习到复杂的语义信息，并且在下游任务中有着十分优秀的表现。目前越来越多的研究正将注意力集中在图神经网络上，进行了广泛地研究与应用，包括计算机视觉，异常检测和其他应用场景。

节点分类任务是图神经网络的下游任务之一，它可以用来衡量经由图神经网络提取出来的节点特征的性能。目前，在节点分类的任务方面，大量的研究都基于同质图数据，它们研究只含有一种类型节点的图数据。但在实际中，含有丰富类型的数据通常表示为异质图数据。异质图数据通常具有多种类型的节点和边，并且包含着丰富的异质信息和复杂的语义信息。近年来，研究者们提出了多种异质图神经网络(HGNNs)来解决基于异质图数据的节点分类、知识图谱等先进领域的问题。异质图嵌入是HGNNs中的关键步骤，它旨在将异质图的丰富信息嵌入到低维特征空间中，以提高下游任务的性能。但是，现有方法始终只是将不同类型的高维特征空间中的节点投影到同一低维特征空间中，然后直接聚合隐藏层中提取的特征。它们普遍忽略了隐藏层中信息维度和冗余维度之间的平衡。经过降维操作后，不同类型节点的特征都投影到同一特征空间中，但投影后的节点特征总是在特征空间中混合。还普遍存在的一个问题是HGNNs的实验结果总是不稳定且不可重复的。

因此，亟需一种提取能力强、精度高且实验结果的异质图节点分类技术。

发明内容

本发明的目的是提供一种基于特征提取强化的高鲁棒性异质图节点分类方法及系统，通过使用鲁棒性特征强化(Robust Feature Reinforcement，RFR)框架模型，优化异质图神经网络的特征嵌入的学习性能，以解决现有模型特征提取能力不足、精度不足和实验结果不稳定等问题。

为实现上述目的，本发明提供了如下方案：

第一方面，本发明提供的一种基于特征提取强化的高鲁棒性异质图节点分类方法，包括：

获取目标异质图数据；

将所述目标异质图数据输入到训练好的鲁棒性特征强化框架模型中，以对所述目标异质图数据中的节点进行分类；

所述训练好的鲁棒性特征强化框架模型是基于离散映射模块、协作分离模块、异质图节点分类器、超参优化模块和样本数据集确定的；所述样本数据集包括多个异质图数据集以及相应的节点分类标签；所述节点分类标签包括：节点特征、邻接矩阵和元路径。

优选地，所述样本数据集的确定过程为：

获取图结构数据集；所述图结构数据集为公共图结构数据集；

对所述图结构数据集进行预处理，得到样本数据集；

对预处理后的图结构数据集进行采样，得到多个异质图数据集，即样本数据集；

所述预处理包括：

将所述图结构数据集中不同类型节点转化为不同维度的张量；

将所述图结构数据集中不同类型节点的网络拓扑结构转化为邻接矩阵；

将所述图结构数据集中任意两个节点之间是否存在直接相连的关系表示为0或1；其中，1表示存在直接相连的关系，0表示不存在直接相连的关系；

将所述图结构数据集中的多条元路径作为高级图结构数据。

优选地，所述训练好的鲁棒性特征强化框架模型的确定过程为：

将所述样本数据集按照一定比例划分为训练集和验证集；

构建鲁棒性特征强化框架模型；

将所述训练集输入到所述鲁棒性特征强化框架模型中进行训练；

将所述验证集输入到正在训练的鲁棒性特征强化框架模型中进行验证；当目标损失值不再减小，训练结束，得到训练好的鲁棒性特征强化框架模型。

优选地，所述将所述训练集输入到所述鲁棒性特征强化框架模型中进行训练，具体过程为：

将所述训练集输入所述离散映射模块中进行维度对齐，以提取维度对齐后的节点特征；

将所述维度对齐后的节点特征输入所述协作分离模块中计算对比损失值；

将所述维度对齐后的节点特征输入到异质图节点分类器中进行节点分类，得到分类误差值；

根据所述超参优化模块，优化所述对比损失值和所述分类误差值中间的超参数。

优选地，所述将所述训练集输入所述离散映射模块中进行维度对齐，以提取维度对齐后的节点特征，具体包括：

基于方差和均值，确定同一类型节点不同维度的概率分布；

将概率分布为均匀分布的维度通过非线性映射函数映射至低维空间中，得到第一映射结果；

将概率分布为不均匀分布的维度通过线性映射函数映射至低维空间中，得到第二映射结果；

将所述第一映射结果和所述第一映射结果进行元素相加，得到维度对齐后的节点特征。

优选地，将所述维度对齐后的节点特征输入所述协作分离模块中计算对比损失值，具体包括：

采用余弦相似度算法计算将所述维度对齐后的节点特征中任意两个节点之间的距离；所述距离为余弦相似度值；

将同类型节点的集合作为正样本集，将不同类型节点的集合作为负样本集；

基于正样本集、负样本集合和任意两个节点之间的距离，计算各类型节点的对比损失值；

将所有类型节点的对比损失值相加，得到最终的对比损失值。

优选地，所述最终的对比损失值的计算公式为：

其中，f′_m和f′_n分别为两个采样点，

和

分别为两个采样点对应第u个维度上的数值，

表示采样点f′_n第v个维度上的数值，d′表示采样点f′_m和f′_n的维数；f′_k和f′_l表示另外两个采样点，τ为一个可学习参数，

为正样本集，

为负样本集，

表示第i个类型节点的对比损失值，

为最终的对比损失值，N为采样点个数。

优选地，所述根据所述超参优化模块，优化所述对比损失值和所述分类误差值中间的超参数，具体包括：

基于所述对比损失值和所述分类误差，确定目标函数；

根据所述超参优化模块，对所述目标函数的超参数进行优化。

优选地，所述目标函数的超参数的优化过程为：

基于一定范围内的超参数，建立多个具有不同超参数的代理模型；

在一个训练周期内并行训练多个所述具有不同超参数的代理模型；

基于强化学习思想，对所述多个具有不同超参数的代理模型进行衡量，从中挑选出最符合标准的代理模型，并记录所述最符合标准的代理模型的超参数和训练参数；所述最符合标准的代理模型为衡量标准满足设定阈值的模型；所述衡量标准是基于方差和均值确定。

第二方面，本发明提供的一种基于特征提取强化的高鲁棒性异质图节点分类系统，包括：

异质图数据获取模块，用于获取目标异质图数据；

异质图数据节点分类模块，用于将所述目标异质图数据输入到训练好的鲁棒性特征强化框架模型中，以对所述目标异质图数据中的节点进行分类；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明鲁棒性特征强化框架模型包括离散映射模块、协作分离模块和超参优化模块。其中，离散映射模块能够提高将高维向量投影到低维特征空间时保留最多信息维度的能力。协作分离模块能够基于对比学习思想，可最大程度的分离不同类型节点，从而保证隐藏层中的差异类型节点特征之间的区分度。超参优化模块可以进一步保证整个异质图神经网络在分类任务上的实验结果的稳定性。同时，本发明还将MAGNN-AC分类模型引入鲁棒性特征强化框架模型中，其实验结果有着显著的提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于特征提取强化的高鲁棒性异质图节点分类方法流程图；

图2为本发明实施例鲁棒性特征强化框架模型整体结构示意图；

图3为本发明实施例的鲁棒特征强化框架模型具体结构示意图。

图4为本发明实施例离散映射模块结构示意图；

图5为本发明实施例协作分离模块结构示意图；

图6为本发明实施例超参优化模块结构示意图；

图7为本发明实施例基于特征提取强化的高鲁棒性异质图节点分类系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明实施例提供了一种基于特征提取强化的高鲁棒性异质图节点分类方法，包括：

步骤100：获取目标异质图数据。

步骤200：将所述目标异质图数据输入到训练好的鲁棒性特征强化框架模型中，以对所述目标异质图数据中的节点进行分类。

进一步地，所述样本数据集的确定过程为：

步骤A：获取图结构数据集；所述图结构数据集为公共图结构数据集。

步骤B：对所述图结构数据集进行预处理，得到样本数据集。

步骤C：对预处理后的图结构数据集进行采样，得到多个异质图数据集，即样本数据集。

其中，所述预处理包括：

将所述图结构数据集中不同类型节点转化为不同维度的张量。

将所述图结构数据集中不同类型节点的网络拓扑结构转化为邻接矩阵。

将所述图结构数据集中任意两个节点之间是否存在直接相连的关系表示为0或1；其中，1表示存在直接相连的关系，0表示不存在直接相连的关系。

将所述图结构数据集中的多条元路径作为高级图结构数据。

具体地，本发明选取合适的公共图结构数据集，对其进行预处理以适应鲁棒性特征强化框架模型对数据格式的要求。使用不同维度的张量来表示不同类型的节点；使用邻接矩阵来表示不同节点之间的网络拓扑结构，采用0-1表示两节点之间是否存在直接相连的关系；在原始节点和邻接矩阵的基础上，取出不同数据集的元路径(metapath)作为更高级的数据结构，作为后续模型提取特征的扩展输入信息。对于上述的三种数据结构(节点、邻接矩阵和元路径)，根据各数据集中不同类型节点的分布进行采样。

进一步地，所述训练好的鲁棒性特征强化框架模型的确定过程为：

步骤a：将所述样本数据集按照一定比例划分为训练集和验证集。

所述步骤a具体为:如图2所示，数据处理与分割部分在结构的入口处，负责对原始数据做初步处理，形成鲁棒性特征强化框架模型所需的数据结构。

本发明按比例对采样出来的数据进行分割，得到训练数据集、验证数据集和测试数据集等三个子数据集，保证三个子数据集节点总数的比例近似10％、10％和80％。

需要说明的是，本发明的测试数据集可以是从样本数据集中直接分割出来的数据，也可以是任意具有异质的图结构数据。

步骤b：构建鲁棒性特征强化框架模型。

如图2-3所示，鲁棒性特征强化(RFR)框架模型由三部分组成，包括离散映射模块(Separate Mapping)，协作分离模块(Co-segregating)和超参优化模块(Population-Based Bandits)。预处理后的数据输入到离散映射模块中进行信息量的衡量与维度对齐，将对其后的节点特征输入到协作分离模块和MAGNN中。协作分离模块基于对比学习思想，计算整个输入节点特征的对比损失。MAGNN会进行节点分类任务，计算得到分类损失。对比损失与分类损失相加得到最终目标函数。超参优化模块对最终目标函数中的超参数进行优化训练。

步骤c：将所述训练集输入到所述鲁棒性特征强化框架模型中进行训练；将所述验证集输入到正在训练的鲁棒性特征强化框架模型中进行验证；当目标损失值不再减小，训练结束，得到训练好的鲁棒性特征强化框架模型。

将测试集或者目标图结构数据给出的输入序列输入到最终得到的训练好的模型中，进行节点分类，计算衡量标准Macro-F1和Micro-F1。

进一步地，如图3-图6所示，所述将所述训练集输入到所述鲁棒性特征强化框架模型中进行训练，具体过程为：

步骤c1：将所述训练集输入所述离散映射模块中进行维度对齐，以提取维度对齐后的节点特征。

步骤c2：将所述维度对齐后的节点特征输入所述协作分离模块中计算对比损失值。

步骤c3：将所述维度对齐后的节点特征输入到异质图节点分类器中进行节点分类，得到分类误差值。

所述步骤c3具体为：借助于对齐后的节点特征张量，输入到异质图节点分类器MAGNN-AC中，计算它们的分类误差。

异质图节点分类方法MAGNN-AC是一个已有的模型，它在异质图节点分类任务上有着突出的表现，MAGNN-AC利用节点中包含的拓扑信息作为指导，并聚合属性节点的加权属性，以完成无属性节点的属性。将得到的维度对齐后的节点特征带入到MAGNN-AC模型中进行分类任务，得到分类误差

步骤c4：根据所述超参优化模块，优化所述对比损失值和所述分类误差值中间的超参数。

进一步地，所述将所述训练集输入所述离散映射模块中进行维度对齐，以提取维度对齐后的节点特征，具体包括：

步骤c11：基于方差和均值，确定同一类型节点不同维度的概率分布。

步骤c12：将概率分布为均匀分布的维度通过非线性映射函数映射至低维空间中，得到第一映射结果。

步骤c13：将概率分布为不均匀分布的维度通过线性映射函数映射至低维空间中，得到第二映射结果。

步骤c14：将所述第一映射结果和所述第一映射结果进行元素相加，得到维度对齐后的节点特征。

具体地，如图4所示，离散映射模块先计算各维度的概率分布，然后将接近于均匀分布的维度通过非线性映射函数映射至低维特征空间中，将不均匀的维度通过线性映射函数映射至低维特征空间中，然后相加得到隐藏层的节点特征。

基于所述训练集，每次随机选取32组训练数据，输入到鲁棒性特征强化框架模型的离散映射模块中，进行维度对齐。

离散映射模块使用同一类型节点的不同维度的概率分布来作为衡量该维度信息量的标准。某一维度的概率分布越接近与均匀分布，代表着该维度上的数值无法而分辨同一类型中不同的节点，则该维度看作含有冗余信息。某一维度的概率分布与均匀分布相差的越远，则可以看作富含这有用的信息，可以区分同一类型中不同的节点。将各个维度的概率分布看作近似高斯分布，通过求方差和均值来确定各维度的概率分布。其中，各类型节点第u维度的概率分布计算公式如下所示：

其中，x_u表示所有节点第u维度上的数值组成的张量，

表示该类型节点第u维度的均值，

表示该类型节点第u维度的方差。离散映射模块从所有维度中选出Topk个蕴含信息量最多的维度进行线性映射，对其余看作是含有冗余信息的维度进行非线性映射，将二者的结果进行元素相加，得到最终对齐后的节点特征。上述步骤公式如下：

h_i＝W_i·F_i+b_i (2)

h′_i＝ELU(W′_i·F_i+b′_i) (3)

F′_i＝h_i⊙h′_i (4)

其中，F_i表示第i个类型的节点集合，W_i和W′_i表示可学习的参数矩阵，b_i和b′_i表示可学习的偏置参数，h_i和h′_i表示隐藏层的参数，作为中间变量。F′_i为最后得到的维度对齐后的第i个类型的节点集合。

进一步地，将所述维度对齐后的节点特征输入所述协作分离模块中计算对比损失值，具体包括：

步骤c21：采用余弦相似度算法计算将所述维度对齐后的节点特征中任意两个节点之间的距离；所述距离为余弦相似度值。

步骤c22：将同类型节点的集合作为正样本集，将不同类型节点的集合作为负样本集。

步骤c23：基于正样本集、负样本集合和任意两个节点之间的距离，计算各类型节点的对比损失值。

步骤c24：将所有类型节点的对比损失值相加，得到最终的对比损失值。

具体地，将对齐后的节点特征张量，输入到协作分离模块中，对其进行采样，同类型节点互为正样本，不同类型节点互为负样本，计算它们的对比误差。

如图5所示，协作分离模块将同类型节点看作正样本，不同类型节点间看作互为负样本，然后计算不同样本点之间的距离，得到对比损失作为最终目标函数中的一项。

协作分离模块采用计算余弦相似度的方法来各采样点之间的距离。余弦相似度越高，两个采样点之间的距离就越小。余弦相似度的公式如下所示：

如下所示：

其中，f′_m和f′_n表示两个采样点，

和

分别表示两个采样点对应第u个维度上的数值，

表示采样点f′_n第v个维度上的数值，d′表示采样点f′_m和f′_n的维数。然后利用计算得到的各采样点之间的余弦相似度组成对比损失，公式如下：

其中，f′_k和f′_l表示另外两个采样点，τ为一个可学习参数，

表示正样本集，

表示负样本集，

表示第i个类型节点的对比损失，N为采样点个数。

通过将所有类型节点的对比损失加起来得到最后的对比损失值

公式如下所示：

进一步地，所述根据所述超参优化模块，优化所述对比损失值和所述分类误差值中间的超参数，具体包括：

步骤c41：对比损失值和所述分类误差，确定目标函数。

步骤c42：跟据所述超参优化模块，对所述目标函数的超参数进行优化。

具体地，借助于得到地对比误差和分类误差，得到总体的目标函数

公式如下所示：

其中，λ为一个超参数，用于平衡分类误差和对比误差，随后利用超参优化模块，对超参数λ进行优化。

如图6所示为整个超参优化模块的流程结构，模块旨在在一个训练周期内通过并行训练多个具有不同超参数的代理模型，对它们进行衡量，选取表现最优的模型，记录该模型的超参数和训练得到的参数。

所述目标函数的超参数的优化过程为：

基于一定范围内的超参数，建立多个具有不同超参数的代理模型，每个代理模型独立存在。

在一个训练周期内并行训练多个所述具有不同超参数的代理模型。

具体地，超参优化模块初始化超参表，随机选取一定范围内的超参数数值，用于建立并行的代理模型，每个代理模型独立存在，并且进行模型训练。将每个并行的代理模型看作是时变的高斯随机模型，基于强化学习思想，设立获得函数衡量代理模型的性能，设立b个代理模型，用

表示该代理模型的参数，公式如下：

其中，参数β_t＞0，βt＞0，b＝1，...B表示第b个代理模型，μ_t，1(x)表示前面一组代理模型的均值，σ_t，b(x)表示正在训练的代理模型的方差。

超参优化模块旨在通过超参优化算法在一个训练周期内从多个代理模型中找到效果最好的代理模型，并将该代理模型的超参数和已经训练得到的模型参数向后传递。

如表1所示，表1为本发明实施例在公开的ACM数据集下，与7个方法在Macro-F1和Micro-F1上的比较，列出了这7个模型在三个数据集上的实验结果。

表1

结果表明，本发明的组合模块RFR极大地改进了节点分类任务的Micro-F1和Macro-F1。对于线性SVM的所有训练比率，MAGNN-AC-SC在ACM数据集上提高了1.43％-2.35％。结果验证了本发明的组合模块SC能够有效地提高从HGN学习嵌入的能力。

如图7所示，本发明还一种基于特征提取强化的高鲁棒性异质图节点分类系统，包括：

异质图数据获取模块701，用于获取目标异质图数据；

异质图数据节点分类模块702，用于将所述目标异质图数据输入到训练好的鲁棒性特征强化框架模型中，以对所述目标异质图数据中的节点进行分类；

综上，本发明鲁棒性特征强化框架模型包括离散映射模块、协作分离模块和超参优化模块。其中，离散映射模块能够提高将高维向量投影到低维特征空间时保留最多信息维度的能力。协作分离模块能够基于对比学习思想，可最大程度的分离不同类型节点，从而保证隐藏层中的差异类型节点特征之间的区分度。超参优化模块可以进一步保证整个异质图神经网络在分类任务上的实验结果的稳定性。同时，本发明还将MAGNN-AC分类模型引入鲁棒性特征强化框架模型中，其实验结果有着显著的提升。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限定。