CN116994042A - 一种融合图神经网络与可解释性机制的图分类方法及系统 - Google Patents
一种融合图神经网络与可解释性机制的图分类方法及系统 Download PDFInfo
- Publication number
- CN116994042A CN116994042A CN202310866764.8A CN202310866764A CN116994042A CN 116994042 A CN116994042 A CN 116994042A CN 202310866764 A CN202310866764 A CN 202310866764A CN 116994042 A CN116994042 A CN 116994042A
- Authority
- CN
- China
- Prior art keywords
- graph
- training
- data
- model
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 42
- 230000007246 mechanism Effects 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 89
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000000873 masking effect Effects 0.000 claims description 21
- 238000012986 modification Methods 0.000 claims description 15
- 230000004048 modification Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000009966 trimming Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 239000004973 liquid crystal related substance Substances 0.000 description 8
- 238000013459 approach Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于机器学习和图数据处理技术领域,具体公开了一种融合图神经网络与可解释性机制的图分类方法及系统,包括:基于原始的图数据结构进行数据增强,生成增强的图表示,然后利用预训练的神经网络学习这些增强的图表示,最后输出图表示HIB;将输出的图表示HIB被送至下游贝叶斯网络模型中进行对抗训练,包括数据扰动和参数扰动;在对抗训练后,利用图标签Y进行模型训练,完成模型微调,将待测样本输入到微调后的模型中进行多次贝叶斯预测,并根据这些预测结果分布计算预测结果的不确定性,完成图分类。本发明方法通过在图神经网络和可解释性机制的基础上,引入自我监督学习、对抗学习和贝叶斯学习的策略,是一种高效、可解释、稳定的图分类方案。
Description
技术领域
本发明涉及机器学习和图数据处理技术领域,具体涉及一种融合图神经网络与可解释性机制的图分类方法及系统。
背景技术
图分类器(graph classifier)是一种用于对图数据进行分类的机器学习模型。与传统的分类器不同,图分类器专门处理图形数据,这些数据以节点和边的形式表示实体之间的关系。图分类器的背景技术涵盖了以下几个方面:图表示学习(Graph RepresentationLearning):图分类器的第一步是将图数据转换为机器学习算法可以处理的向量表示。图表示学习方法通过学习节点和边的嵌入向量,将图的结构和节点属性编码为低维向量。这些向量能够捕捉节点之间的相似性和关联性,为后续的分类任务提供输入。
图卷积网络(Graph Convolutional Networks,GCNs):GCNs是一种广泛应用于图分类的神经网络模型。GCNs通过在图上进行卷积操作,将节点的特征信息与其邻居节点的特征信息相结合。这种信息传递机制使得GCNs能够考虑节点的局部上下文,并通过多层卷积提取更高级别的特征。最终,GCNs可以将节点的特征表示映射到类别概率分布上,从而实现图分类。
图注意力网络(Graph Attention Networks,GATs):GATs是另一种在图分类中常用的神经网络模型。GATs利用注意力机制来动态地分配不同节点之间的重要性权重。通过学习每个节点与其邻居之间的注意力系数,GATs能够对节点特征进行加权聚合,从而更有效地捕捉图的结构和特征之间的关系。图神经网络(Graph Neural Networks,GNNs):GNN是一类包括GCNs和GATs在内的神经网络模型,用于处理图形数据。GNNs结合了图结构的信息传递和节点特征的更新,通过迭代更新节点的表示向量,逐步聚合全局图信息。这种迭代过程使得GNNs能够更好地捕捉图中的层次化特征,提高图分类的性能。
传统的图分类系统通常使用手动工程化特征的监督分类器。然后,早期的深度学习技术使用循环神经网络(RNNs)来捕获时序结构关系或者卷积神经网络(CNNs)来探索局部邻域内的相关性。现有的技术尽管在图分类技术中取得了明显的进步,但现有技术的方法仍然面临着各种限制。其中一个关键局限性是对数据集的隐含假设,即数据集在进行图分类前只需要最少的预处理。这种方法并不能捕获真实的场景,例如在图数据传播过程中可能存在的干扰,如噪声和错误。现有技术中也有已经开始通过建模传播不确定性和调整节点-边权重或者生成对抗样本来解决这个问题。然而,这些策略都是劳动密集型的和数据低效的,因为它们主要依赖于监督学习,需要大量的标注数据和大量的训练时间。此外,现有工作的一个主要缺陷是无法量化预测的不确定性,这可能会误导用户,并可能因为模型预测的错误而导致不利的结果。
发明内容
为解决现有技术中存在的问题,本发明提供了一种融合图神经网络与可解释性机制的图分类方法及系统,通过建模传播不确定性和调整节点-边权重或生成对抗样本等策略,通过依赖信息瓶颈(IB)理论的自我监督图结构学习策略,剔除冗余特性和无关的结构信息,构造具有可解释性的表示,采用了基于参数扰动和数据扰动的对抗性训练策略,采用贝叶斯层来量化神经网络的不确定性,进一步提高了方法的可信度,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种融合图神经网络与可解释性机制的图分类方法,包括如下步骤:
S1、自监督学习:基于原始的图数据结构G=(V,E)进行数据增强,通过数据增强的方式,从原始图数据生成增强的图表示作为对比样本,然后利用预训练的神经网络学习这些增强的图表示,最后输出图表示HIB;
S2、对抗训练:输出的图表示HIB被送至下游贝叶斯网络模型中进行对抗训练,对抗训练包括数据扰动和参数扰动两部分,其中数据扰动是为了确保在原始图存在噪声的情况下,图分类器仍能保持图表示结构的健壮性;参数扰动是为了保证模型在训练和部署过程中的稳定性;
S3、微调:在对抗训练后,利用图标签Y进行贝叶斯网络模型训练,完成模型微调,将待测样本输入到微调后的模型中进行多次贝叶斯预测,并根据这些预测结果分布计算预测结果的不确定性,完成图分类。
优选的,在步骤S1中,具体包括如下:
S11、数据增强:数据增强包括特征掩蔽和边修改,通过特征掩蔽和边修改的方式,从原始图数据中生成对比样本;
S12、网络预训练:通过对数据增强后的图表示按照信息瓶颈理论进行网络预训练来获取预训练的图表示HIB,预训练的目标是最大化图表示HIB与图标签Y之间的互信息,同时最小化图表示HIB与节点特征X之间的互信息,公式表达如下:
其中,为增强样本对,/>为散度,β为超参数,p(HIB|X)表示给定输入X时HIB的概率分布,p(HIB)表示HIB的边际概率分布。
优选的,在步骤S11中,所述的特征掩蔽具体包括:基于可学习的特征掩蔽技术对原始图中的节点特征进行处理,即使用可学习的二进制向量M对原始节点特征进行掩蔽,从而产生新的特征矩阵XIB=Xr+(X-Xr)⊙M,其中,Xr是随机抽样得到的特征矩阵,⊙表示按元素相乘;通过特征掩蔽,能有效地忽略与下游任务无关的特征;
所述的边修改具体包括:对所有可能的边作为一组相互独立的伯努利随机变量进行建模,即AIB=∪u,v∈V{au,v~Ber(πu,v)};通过计算各个边的参数π,来进行边的修改;每一个边参数πu,v都是基于节点对(u,v)的伯努利分布计算得出的,πu,v=sigmoid(Z(u)Z(v)T),其中Z(u)=NN(X(u))是经过神经网络转换的节点u的表示,NN为两层感知机;通过GNN(XIB,AIB)获得增强后的节点表示ZIB,最终图的表示HIB是ZIB中所有节点表示的平均值。
优选的,在步骤S2中,所述的参数扰动具体包括:对图表示HIB进行参数扰动,即通过为网络参数ω添加由超参数ζ控制的高斯噪声Δω来实现参数扰动,通过添加高斯噪声以增强模型在训练和部署过程中的稳定性;
所述的数据扰动具体包括:对图表示HIB进行数据扰动,即通过图表示HIB添加由超参数η控制的高斯噪声ΔH来实现数据扰动,通过添加高斯噪声以增强模型对所学习图表示存在噪声时的健壮性。
优选的,在步骤S2中,对抗训练的目标为最小化以下两个损失函数:
其中为最小化的参数扰动函数,/>为最小化的数据扰动函数。
优选的,在步骤S3中,具体包括如下:
S31、输出预测值:利用图标签Y进行贝叶斯网络模型训练,完成模型微调,将待测样本输入到微调后的模型中进行多次贝叶斯预测,得到多个预测结果,将多个预测结果的均值作为最终的预测值;
S32、输出不确定性:利用从贝叶斯预测中得到的多个预测结果,计算出预测结果的标准偏差,输出为不确定性。
优选的,在步骤S3中,模型微调训练过程中,采用的最小化损失函数为:
其中,为预测标签/>与真实标签y的交叉熵损失,/>是后验分布q(ω|HIB)与先验分布p(ω)的KL散度,ω代表下游贝叶斯层的参数。
另一方面,为实现上述目的,本发明还提供了如下技术方案:一种融合图神经网络与可解释性机制的图分类系统,所述系统包括如下模块:
数据增强模块:用于对原始的图数据结构G=(V,E)进行数据增强,通过数据增强的方式,从原始图数据生成增强的图表示作为对比样本,数据增强包括特征掩蔽和边修改;
网络预训练模块:用于接收数据增强模块产生的增强数据,并按照信息瓶颈理论进行网络预训练来获取预训练的图表示HIB,预训练的目标是最大化图表示HIB与图标签Y之间的互信息,同时最小化图表示HIB与节点特征X之间的互信息;
对抗训练模块:用于接收网络预训练模块的输出,并送至下游贝叶斯网络模型中进行对抗训练,对抗训练包括数据扰动和参数扰动两部分,其中数据扰动是为了确保在原始图存在噪声的情况下,图分类器仍能保持图表示结构的健壮性;参数扰动是为了保证模型在训练和部署过程中的稳定性;
微调模块:用于在对抗训练后,利用图标签Y进行贝叶斯网络模型训练,完成模型微调,将待测样本输入到微调后的模型中进行多次贝叶斯预测,并根据这些预测结果分布计算预测结果的不确定性,完成图分类。
另一方面,为实现上述目的,本发明还提供了如下技术方案:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理执行时实现所述的融合图神经网络与可解释性机制的图分类方法。
本发明的有益效果是:
1)本发明方法通过在图神经网络和可解释性机制的基础上,引入自我监督学习、对抗学习和贝叶斯学习的策略,从而提供一种高效、可解释、稳定的图分类方案;
2)本发明的自我监督学习策略减少了对大规模标注数据的依赖,通过利用信息瓶颈(IB)理论,有效地剔除了冗余特性和无关的结构信息,构造出具备可解释性的图表示,为模型训练提供了高效的数据预处理方式;
3)本发明通过对抗训练策略,保障了模型在训练和部署阶段的稳定性。具体来说,通过参数扰动和数据扰动,使得模型的性能对微小变化具有鲁棒性,即使在噪声数据或网络参数微小变动的情况下,也能保持良好的性能;
4)本发明通过采用贝叶斯层来量化神经网络的不确定性,提高了模型的可信度。在预测阶段,对每个图样本进行多次预测,并根据这些预测结果的分布计算预测结果的不确定性。这种方式允许模型对预测结果的可信度进行量化,提供了额外的决策信息;
5)本发明提供的图分类系统模块结构清晰,操作步骤明确,对于具体实施提供了良好的指导,具有很高的实用性;本发明利用可解释性机制,提高了模型的可理解性,使模型的预测过程更加透明,提高了用户的信任度,有利于推动图神经网络技术的实际应用。
附图说明
图1为本发明方法步骤流程示意图;
图2为数据增强示意图;
图3为网络预训练示意图;
图4为对抗训练示意图;
图5为微调示意图;
图6为本发明图分类系统模块示意图;
图7为本发明系统模型整体工作流图;
图中,110-数据增强模块;120-网络预训练模块;130-对抗训练模块;140-微调模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1-图5,本发明提供一种技术方案:一种融合图神经网络和可解释性机制的图分类方法,流程如图1所示,包括如下步骤:
S1、自监督学习:在由G=(V,E)所构成的图数据结构中,图表示学习模块会首先对原始的图数据结构进行数据增强。具体的,对于输入图G,采用两种策略进行数据增强:特征掩蔽和边修改。通过这种方式,从原始图数据生成增强的图表示,然后利用预训练的神经网络学习这些增强的图表示,输出图表示HIB;
进一步的,步骤S1自监督学习的具体步骤包括如下,如图2所示:
S11、数据增强:在原始图G=(V,E)的基础上,执行数据增强步骤以生成增强的图表示。具体的,通过特征掩蔽和边修改的方式,从原始图数据中生成对比样本。这两种策略的目的是增强模型对于原始数据的理解和学习,提高模型的泛化性能。
进一步的,所述步骤S11数据增强的具体步骤包括如下:
S111、特征掩蔽:基于一种可学习的特征掩蔽技术对原始图中的节点特征进行处理。具体的,我们使用一个可学习的二进制向量M对原始节点特征进行掩蔽,从而产生新的特征矩阵XIB=Xr+(X-Xr)⊙M,其中,Xr是随机抽样(比例=0.6)得到的特征矩阵,⊙表示按元素相乘。通过特征掩蔽,我们可以有效地忽略与下游任务无关的特征,提高模型的学习效率和准确性。
S112、边修改:我们将所有可能的边作为一组相互独立的伯努利随机变量,即AIB=∪u,v∈V{au,v~Ber(πu,v)}。通过计算各个边的参数π,来进行边的修改。每一个边参数πu,v都是基于节点对(u,v)的伯努利分布计算得出的,πu,v=sigmoid(Z(u)Z(v)T),其中Z(u)=NN(X(u))是经过神经网络转换的节点u的表示,NN为两层感知机。这样,我们可以通过降低噪声边的权重来降低其在谣言传播中的影响。通过GNN(XIB,AIB)我们可以获得增强后的节点表示ZIB,最终图的表示HIB是ZIB中所有节点表示的平均值。
S12、网络预训练:通过对数据增强后的图表示进行网络预训练,来获取预训练的图表示HIB。如图3所示,预训练的目标是最大化图表示HIB与图标签Y之间的互信息,同时最小化图表示HIB与节点特征X之间的互信息。这种通过信息瓶颈理论(IB theory)的自监督学习方法,可以有效地提取和利用图数据中的结构信息,增强模型对图数据的理解能力。在缺乏真实标签的自监督学习环境中,增强的样本对被用作对比的标签,从而确保训练的一致性和稳定性。对于公式的优化目标,采用对比损失和KL散度的上界进行优化。对比标签帮助学习模块识别图数据结构中的不变性,有效地消除噪声和不确定性。
进一步的,所述网络预训练的目标为:
其中,为增强样本对,/>为散度,β为超参数,p(HIB|X)表示给定输入X时HIB的概率分布,p(HIB)表示HIB的边际概率分布。
S2、对抗学习:经过自监督学习后的图表示HIB会被送至下游贝叶斯网络模型中进行对抗学习。具体的,对抗学习基于参数扰动进行。参数扰动是为了保证模型在训练和部署过程中的稳定性。对模型的参数添加小规模的扰动,使得模型的性能对参数的微小变化具有鲁棒性;
进一步的,所述S2对抗学习的具体步骤包括如下,如图4所示:
S21、参数扰动:基于自监督学习得到的图表示HIB,通过参数扰动技术,添加高斯噪声以增强模型在训练和部署过程中的稳定性。具体地,通过为网络参数ω添加由超参数ζ控制的高斯噪声Δω来实现参数扰动,
S22、数据扰动:基于自监督学习得到的图表示HIB,通过数据扰动技术,添加高斯噪声以增强模型对所学习图表示可能存在噪声时的健壮性。具体地,通过为图表示HIB添加由超参数η控制的高斯噪声ΔH来实现数据扰动,ΔH=
进一步的,对抗训练的目标为最小化以下两个损失函数:
其中为最小化的参数扰动函数,/>为最小化的数据扰动函数。
S3、微调:根据图数据中带有的原始标签Y,微调是为了进一步提高模型的性能。具体的,使用贝叶斯方法对模型进行微调。在预测阶段,对每个图样本进行多次预测,并根据这些预测结果的分布计算预测结果的不确定性。这种方式允许模型对预测结果的可信度进行量化,提供了额外的决策信息;
进一步的,所述S3微调的具体步骤包括如下,如图5所示:
S31、输出预测值:在对抗训练后,微调阶段将利用标签Y进行贝叶斯网络模型训练,进一步提升模型的性能。在此阶段,模型将对每一个测试样本进行多次贝叶斯预测,从而得到多个预测结果。这些预测结果的均值将作为最终的预测值。
S32、输出不确定性:输出不确定性:除了输出预测值之外,本发明还将输出预测结果的不确定性。具体来说,利用从贝叶斯预测中得到的多个预测结果,计算出预测结果的标准偏差,作为不确定性的衡量。
进一步的,微调步骤中需要最小化的损失函数为:
其中,/>为预测标签/>与真实标签y的交叉熵损失,/>是后验分布q(ω|HIB)与先验分布p(ω)的KL散度,ω代表下游贝叶斯层的参数。
其中,为预测标签/>与真实标签y的交叉熵损失,/>是后验分布q(ω|HIB)与先验分布p(ω)的KL散度,ω代表下游贝叶斯层的参数。
本发明方法在解决面临以下实际问题的技术手段和优势:
处理数据集的隐含假设:传统方法假设在进行图分类之前,数据集只需要最少的预处理。然而,在现实场景中存在干扰、噪声和错误等不确定性。该发明通过建模传播不确定性和调整节点-边权重或生成对抗样本等策略,以减轻这些限制。
减轻数据密集型限制:传统方法依赖于监督学习,需要大量标注数据和训练时间。该发明引入了自监督学习方法,减轻了对标注数据的依赖。这种方法通过依赖信息瓶颈(IB)理论的自我监督图结构学习策略,剔除冗余特性和无关的结构信息,构造具有可解释性的表示。
提高模型的稳定性:为保障模型在训练和部署阶段的稳定性,该发明采用了基于参数扰动和数据扰动的对抗性训练策略。这种策略能够增强模型的鲁棒性,使其在面对干扰和噪声时具有更好的性能。
量化预测的不确定性:该发明采用贝叶斯层来量化神经网络的不确定性,进一步提高了方法的可信度。这有助于减少模型预测错误可能导致的不良结果,并为用户提供更可靠的预测。
实施例2
基于与上述方法实施例相同地发明构思,本申请实施例还提供了一种融合图神经网络和可解释性机制的图分类系统,用于实现上面实施例所述的融合图神经网络和可解释性机制的图分类方法,如图6和图7所示,所述系统具体包括四个部分:数据增强模块,网络预训练模块,对抗训练模块,微调模块。
数据增强模块110:此模块基于原始的图数据结构G=(V,E)进行数据增强,包括特征掩蔽和边修改,以生成对比样本。在此过程中,会使用一种可学习的特征掩蔽技术来丢弃与下游任务无关的特征,并对所有可能的边作为一组相互独立的伯努利随机变量进行建模。
网络预训练模块120:此模块接收数据增强模块产生的增强数据,并按照信息瓶颈理论进行预训练,以最大化图表示与图标签之间的互信息,同时最小化图表示与节点特征之间的互信息。
对抗训练模块130:此模块接收网络预训练模块的输出,并进行对抗训练。对抗训练包括数据扰动和参数扰动两部分,其中数据扰动是为了确保在原始图存在噪声的情况下,图分类器仍能保持图表示结构的健壮性;参数扰动是为了保证模型在训练和部署过程中的稳定性。
微调模块140:此模块对经过对抗训练后的图表示进行微调,使用原始图数据中带有的标签Y来进一步提高模型的性能。微调后的模型除了可以输出预测结果,还可以输出预测结果的不确定性。
实施例3
基于与上述方法实施例相同地发明构思,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的融合图神经网络和可解释性机制的图分类方法。
所述的融合图神经网络和可解释性机制的图分类方法,具体包括:
自监督学习:基于原始的图数据结构G=(V,E)进行数据增强,通过数据增强的方式,从原始图数据生成增强的图表示作为对比样本,然后利用预训练的神经网络学习这些增强的图表示,最后输出图表示HIB;
对抗训练:输出的图表示HIB被送至下游贝叶斯网络模型中进行对抗训练,对抗训练包括数据扰动和参数扰动两部分,其中数据扰动是为了确保在原始图存在噪声的情况下,图分类器仍能保持图表示结构的健壮性;参数扰动是为了保证模型在训练和部署过程中的稳定性;
微调:在对抗训练后,利用图标签Y进行贝叶斯网络模型训练,完成模型微调,将待测样本输入到微调后的模型中进行多次贝叶斯预测,并根据这些预测结果分布计算预测结果的不确定性,完成图分类。
实施例4
将本专利与其他现有文件做了以下比较以及对比实验:
对比实验1:分类准确度与F1指标
实验对比了近年来优秀的图分类器,主要对分类准确度(Acc.)与F1指标,在近年常用的数据集,Twitter15和Twitter16上进行测试与评估。其详细结果如表1所示:
表1分类准确度与F1指标
在本专利的模型的实验结果表明,在Twitter15和Twitter16这两个数据集上,本专利提出的融合图神经网络和可解释性机制的图分类器方法表现都非常优秀。
对于Twitter15数据集,本专利的模型在准确率和F1得分上均超越了所有的对比模型。本专利的模型的准确率为0.931,而F1得分为0.903。这两个指标都远远超过了表现最好的对比模型GACL,其准确率为0.901,F1得分为0.900。即便是准确率表现第二好的模型DA-GCN,其F1得分也仅为0.859,远低于本专利的模型。
在Twitter16数据集上,本专利的模型的表现同样优秀。准确率和F1得分分别为0.921和0.913,这两个数据都超过了所有的对比模型。其中,表现最接近的是GACL模型,但其准确率和F1得分分别为0.912和0.900,仍然低于本专利的模型。而其他的模型,比如DA-GCN,虽然准确率为0.905,但其F1得分只有0.894,无法与本专利的模型相比较。
总的来看,本专利的模型在这两个数据集上的表现都极其出色,无论是准确率还是F1得分,都远超过了所有对比模型。这些结果充分验证了本专利的模型在这项任务上的优势和有效性。
对比实验2:自监督学习效果
本质上,自监督学习模块是一个辅助模块,其目的是为了帮助图分类器即使在训练数据缺少的情况下也可以有效的学习图数据的表示特征。在脱离自监督学习模块的情况下,该分类器理论上也可以照常使用。故本部分的实验主要探究自监督学习模块对模型整体性能的影响。
使用与未使用自监督学习模块的结果在Twitter15和Twitter16数据集上的准确度(Acc.)与F1指标如表2所示,(二者分别以Ours-withSSL以Ours-noSSL标注)。
表2使用与未使用自监督学习模块的对比
表2的结果清楚地揭示了自监督学习模块在本专利模型中的显著作用。可以观察到,在Twitter15和Twitter16数据集上,使用自监督学习模块(Ours-withSSL)的模型均比未使用自监督学习模块(Ours-noSSL)的模型显示出更优的性能。
具体来说,在Twitter15数据集上,使用自监督学习模块的模型的准确率和F1得分分别达到0.931和0.903,相比未使用自监督学习模块的模型(准确率为0.812,F1得分为0.803)提升显著。这表明,本专利提出的自监督学习模块能够在提高模型在此数据集上的分类准确性和平衡性上起到关键作用。
同样,在Twitter16数据集上,使用自监督学习模块的模型表现更为突出。其准确率和F1得分分别为0.921和0.913,这比未使用自监督学习模块的模型(准确率为0.801,F1得分为0.790)分别高出了12个百分点和12.3个百分点,进一步强调了本专利提出的自监督学习模块在增强模型性能方面的重要性。
对比实验3:健壮性测试
在实际应用场景中,可获得的图数据常常缺乏真实标签标注。因此,一个模型健壮性的重要考量指标是在缺乏真实标签数据的条件下,其性能能否保持稳定。因此,本部分的实验旨在探究模型在训练数据标签不足的环境下的性能表现,也就是其健壮性。
为此,本专利选择了Twitter数据集,并选取了在对比试验1中表现优秀的基线模型,进行了进一步的实验。实验设定了不同的数据标签比例,即训练数据中被真实标注的比例,然后观察模型在图分类的准确度(Acc)上的表现,如表3所示。
表3健壮性测试
由表3的数据可知,随着标签比例的增加,所有模型的准确度(Acc)均有所提高,这表明更多的标签信息能帮助模型更好地学习和分类。然而,在所有测试的模型中,本专利提出的模型(Ours)在各个标签比例下的准确度均超过其他模型。
当标签比例为5%时,本专利提出的模型的准确度为0.601,而其他模型的准确度均低于0.415。当标签比例提高到10%时,本专利的模型的准确度提升到0.621,而其他模型的准确度仍然无法超过0.6。最后,当标签比例进一步提升到20%时,本专利提出的模型的准确度达到了0.701,而其他模型的准确度依然无法达到0.625。
在标签稀缺的情况下,本专利提出的模型具有更强的健壮性和性能优势。无论在哪种标签比例下,本专利的模型准确度都显著高于其他模型,这彰显了自监督学习在处理标签稀缺问题上的优越性和本专利方法的有效性。
本发明提供了一种融合图神经网络和可解释性机制的图分类方法,该方法通过在图神经网络和可解释性机制的基础上,引入自我监督学习、对抗学习和贝叶斯学习的策略,是一种高效、可解释、稳定的图分类方案。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种融合图神经网络与可解释性机制的图分类方法,其特征在于,包括如下步骤:
S1、自监督学习:基于原始的图数据结构G=(V,E)进行数据增强,通过数据增强的方式,从原始图数据生成增强的图表示作为对比样本,然后利用预训练的神经网络学习这些增强的图表示,最后输出图表示HIB;
S2、对抗训练:输出的图表示HIB被送至下游贝叶斯网络模型中进行对抗训练,对抗训练包括数据扰动和参数扰动两部分,其中数据扰动是为了确保在原始图存在噪声的情况下,图分类器仍能保持图表示结构的健壮性;参数扰动是为了保证模型在训练和部署过程中的稳定性;
S3、微调:在对抗训练后,利用图标签Y进行贝叶斯网络模型训练,完成模型微调,将待测样本输入到微调后的模型中进行多次贝叶斯预测,并根据这些预测结果分布计算预测结果的不确定性,完成图分类。
2.根据权利要求1所述的融合图神经网络与可解释性机制的图分类方法,其特征在于:在步骤S1中,具体包括如下:
S11、数据增强:数据增强包括特征掩蔽和边修改,通过特征掩蔽和边修改的方式,从原始图数据中生成对比样本;
S12、网络预训练:通过对数据增强后的图表示按照信息瓶颈理论进行网络预训练来获取预训练的图表示HIB,预训练的目标是最大化图表示HIB与图标签Y之间的互信息,同时最小化图表示HIB与节点特征X之间的互信息,公式表达如下:
3.根据权利要求2所述的融合图神经网络与可解释性机制的图分类方法,其特征在于:在步骤S11中,所述的特征掩蔽具体包括:基于可学习的特征掩蔽技术对原始图中的节点特征进行处理,即使用可学习的二进制向量M对原始节点特征进行掩蔽,从而产生新的特征矩阵XIB=Xr+(X-Xr)⊙M,其中,Xr是随机抽样得到的特征矩阵,⊙表示按元素相乘;通过特征掩蔽,能有效地忽略与下游任务无关的特征;
所述的边修改具体包括:对所有可能的边作为一组相互独立的伯努利随机变量进行建模,即AIB=∪u,v∈V{au,v~Ber(πu,v)};通过计算各个边的参数π,来进行边的修改;每一个边参数πu,v都是基于节点对(u,v)的伯努利分布计算得出的,πu,v=sigmoid(Z(u)Z(v)T),其中Z(u)=NN(X(u))是经过神经网络转换的节点u的表示,NN为两层感知机;通过GNN(XIB,AIB)获得增强后的节点表示ZIB,最终图的表示HIB是ZIB中所有节点表示的平均值。
4.根据权利要求1所述的融合图神经网络与可解释性机制的图分类方法,其特征在于:在步骤S2中,所述的参数扰动具体包括:对图表示HIB进行参数扰动,即通过为网络参数ω添加由超参数ζ控制的高斯噪声Δω来实现参数扰动,通过添加高斯噪声以增强模型在训练和部署过程中的稳定性;
所述的数据扰动具体包括:对图表示HIB进行数据扰动,即通过图表示HIB添加由超参数η控制的高斯噪声ΔH来实现数据扰动,通过添加高斯噪声以增强模型对所学习图表示存在噪声时的健壮性。
5.根据权利要求1所述的融合图神经网络与可解释性机制的图分类方法,其特征在于:在步骤S2中,对抗训练的目标为最小化以下两个损失函数:
其中为最小化的参数扰动函数,/>为最小化的数据扰动函数。
6.根据权利要求1所述的融合图神经网络与可解释性机制的图分类方法,其特征在于:在步骤S3中,具体包括如下:
S31、输出预测值:利用图标签Y进行贝叶斯网络模型训练,完成模型微调,将待测样本输入到微调后的模型中进行多次贝叶斯预测,得到多个预测结果,将多个预测结果的均值作为最终的预测值;
S32、输出不确定性:利用从贝叶斯预测中得到的多个预测结果,计算出预测结果的标准偏差,输出为不确定性。
7.根据权利要求1所述的融合图神经网络与可解释性机制的图分类方法,其特征在于:在步骤S3中,模型微调训练过程中,采用的最小化损失函数为:
8.一种融合图神经网络与可解释性机制的图分类系统,其特征在于:所述系统包括如下模块:
数据增强模块(110):用于对原始的图数据结构G=(V,E)进行数据增强,通过数据增强的方式,从原始图数据生成增强的图表示作为对比样本,数据增强包括特征掩蔽和边修改;
网络预训练模块(120):用于接收数据增强模块产生的增强数据,并按照信息瓶颈理论进行网络预训练来获取预训练的图表示HIB,预训练的目标是最大化图表示HIB与图标签Y之间的互信息,同时最小化图表示HIB与节点特征X之间的互信息;
对抗训练模块(130):用于接收网络预训练模块的输出,并送至下游贝叶斯网络模型中进行对抗训练,对抗训练包括数据扰动和参数扰动两部分,其中数据扰动是为了确保在原始图存在噪声的情况下,图分类器仍能保持图表示结构的健壮性;参数扰动是为了保证模型在训练和部署过程中的稳定性;
微调模块(140):用于在对抗训练后,利用图标签Y进行贝叶斯网络模型训练,完成模型微调,将待测样本输入到微调后的模型中进行多次贝叶斯预测,并根据这些预测结果分布计算预测结果的不确定性,完成图分类。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现如权利要求1-7中任意一项所述的融合图神经网络与可解释性机制的图分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310866764.8A CN116994042A (zh) | 2023-07-14 | 2023-07-14 | 一种融合图神经网络与可解释性机制的图分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310866764.8A CN116994042A (zh) | 2023-07-14 | 2023-07-14 | 一种融合图神经网络与可解释性机制的图分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116994042A true CN116994042A (zh) | 2023-11-03 |
Family
ID=88531234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310866764.8A Pending CN116994042A (zh) | 2023-07-14 | 2023-07-14 | 一种融合图神经网络与可解释性机制的图分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994042A (zh) |
-
2023
- 2023-07-14 CN CN202310866764.8A patent/CN116994042A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Hierarchical graph pooling with structure learning | |
Han et al. | Unsupervised generative modeling using matrix product states | |
Reyad et al. | A modified Adam algorithm for deep neural network optimization | |
Tang et al. | Deep safe incomplete multi-view clustering: Theorem and algorithm | |
CN112699247A (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习框架 | |
WO2018212711A1 (en) | Predictive analysis methods and systems | |
Song et al. | Nonnegative Latent Factor Analysis-Incorporated and Feature-Weighted Fuzzy Double $ c $-Means Clustering for Incomplete Data | |
Yang et al. | Transductive transfer learning based on broad learning system | |
Huang et al. | Self-paced and soft-weighted nonnegative matrix factorization for data representation | |
CN115577283A (zh) | 一种实体分类方法、装置、电子设备及存储介质 | |
Liu et al. | EACP: An effective automatic channel pruning for neural networks | |
Akpinar et al. | Sample complexity bounds for recurrent neural networks with application to combinatorial graph problems | |
Kajla et al. | Additive angular margin loss in deep graph neural network classifier for learning graph edit distance | |
Qu et al. | Effects of loss function and data sparsity on smooth manifold extraction with deep model | |
Khan et al. | Unsupervised domain adaptation using fuzzy rules and stochastic hierarchical convolutional neural networks | |
CN111144500A (zh) | 基于解析高斯机制的差分隐私深度学习分类方法 | |
Zhang et al. | An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model | |
Lv et al. | Intelligent model update strategy for sequential recommendation | |
Li et al. | Genurl: A general framework for unsupervised representation learning | |
CN116994042A (zh) | 一种融合图神经网络与可解释性机制的图分类方法及系统 | |
Zuo et al. | FedViT: Federated continual learning of vision transformer at edge | |
Kim | Active label correction using robust parameter update and entropy propagation | |
Zhang et al. | Discriminative additive scale loss for deep imbalanced classification and embedding | |
CN116708029B (zh) | 一种区块链异常节点的检测方法、系统、设备和存储介质 | |
Zhou et al. | Weighted Subspace Fuzzy Clustering with Adaptive Projection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |