CN116127386A - 一种样本分类方法、装置、设备和计算机可读存储介质 - Google Patents
一种样本分类方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN116127386A CN116127386A CN202310417849.8A CN202310417849A CN116127386A CN 116127386 A CN116127386 A CN 116127386A CN 202310417849 A CN202310417849 A CN 202310417849A CN 116127386 A CN116127386 A CN 116127386A
- Authority
- CN
- China
- Prior art keywords
- matrix
- training
- label
- sample
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000011159 matrix material Substances 0.000 claims abstract description 354
- 238000012549 training Methods 0.000 claims abstract description 285
- 238000003062 neural network model Methods 0.000 claims abstract description 130
- 230000006870 function Effects 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 22
- 230000009466 transformation Effects 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 238000005295 random walk Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 5
- 238000005096 rolling process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004001 molecular interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本申请涉及人工智能技术领域,公开了一种样本分类方法、装置、设备和计算机可读存储介质,利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签。基于节点特征信息中各节点之间的相似性,构建相似性概率矩阵。依据相似性概率矩阵以及训练样本包含的训练标签,确定出训练样本中所有节点各自对应的传播标签。根据传播标签、训练标签、预测标签,对图神经网络模型的权重进行调整,得到训练好的图神经网络模型,从而对待处理样本进行分析以输出样本类别。依据节点间相似性可以将训练标签传递到特征相似的节点上,从而增加训练时的标签数量,解决数据过拟合的问题。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种样本分类方法、装置、设备和计算机可读存储介质。
背景技术
图神经网络(Graph Neural Network,GNN)是不规则的、无序的,除了能够学习结构化数据之外,还能学习到非结构化数据,比如文本和图片,并能够在提取出的图结构中进行推理。GNN因其能够对非结构化数据进行建模而受到大量关注,被广泛用于图的节点分类、分子相互作用、社交网络、推荐系统或程序理解等各个领域。
大量的GNN方法选择在模型结构上进行改进来更好地建模语言信息或图片信息等,这导致了模型的可解释性变差,同时无法适用于大型数据集。基于图的节点分类任务中,GNN在训练过程中由于数据集划分不规则、训练集样本较少,在训练过程中很容易导致训练过拟合现象严重,泛化能力不足。例如,图数据集的节点分类任务有2708个节点,训练样本节点只有140个,不到整个数据的10%。目前技术都是使用重新划分数据集的方式来增加训练集样本数,从而使得模型的精度得到大幅度提升,但是改变了当初划分数据集的初衷,并不适用于图神经网络的训练。
可见,如何解决训练样本不足造成数据过拟合的问题,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种样本分类方法、装置、设备和计算机可读存储介质,可以解决训练样本不足造成数据过拟合的问题。
为解决上述技术问题,本申请实施例提供一种样本分类方法,包括:
利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签;
基于所述节点特征信息中各节点之间的相似性,构建相似性概率矩阵;
依据所述相似性概率矩阵以及所述训练样本包含的训练标签,确定出所述训练样本中所有节点各自对应的传播标签;
根据所述传播标签、所述训练标签、所述预测标签,对所述图神经网络模型的权重进行调整,以得到训练好的图神经网络模型;
利用所述训练好的图神经网络模型对待处理样本进行分析,以输出所述待处理样本对应的样本类别。
可选地,所述利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签包括:
对所述初始节点特征信息进行预处理,得到第一节点特征信息;
对所述图结构信息进行归一化处理,得到邻接矩阵;
基于所述第一节点特征信息、所述邻接矩阵以及所述图神经网络模型中各层图卷积对应的权重矩阵,得到融合后的节点特征信息以及所述图神经网络模型训练得到的预测标签。
可选地,所述基于所述第一节点特征信息、所述邻接矩阵以及所述图神经网络模型中各层图卷积对应的权重矩阵,得到融合后的节点特征信息以及所述图神经网络模型训练得到的预测标签包括:
将所述第一节点特征信息、所述图神经网络模型中第一层图卷积对应的第一权重矩阵以及所述邻接矩阵的乘积作为第二节点特征信息;
将所述第二节点特征信息、所述图神经网络模型中第二层图卷积对应的第二权重矩阵以及所述邻接矩阵的乘积作为融合后的节点特征信息;
将所述融合后的节点特征信息、所述图神经网络模型中第三层图卷积对应的第三权重矩阵以及所述邻接矩阵的乘积作为待训练节点特征信息,并对所述待训练节点特征信息进行分析,以确定出所述图神经网络模型训练得到的预测标签。
采用三层图卷积的图神经网络模型对训练样本进行训练,依赖于前两层图卷积可以得到融合后的节点特征信息,该融合后的节点特征信息充分保留了节点特性和相关性;依据第三层图卷积可以确定出图神经网络模型训练得到的预测标签。
可选地,所述对所述初始节点特征信息进行预处理,得到第一节点特征信息包括:
对所述初始节点特征信息进行随机丢弃,以得到第一节点特征信息。
通过对初始节点特征信息进行随机丢弃,可以保证每次训练时样本的不饱和性,从而减少过拟合现象。
可选地,所述对所述图结构信息进行归一化处理,得到邻接矩阵包括:
依据所述图结构信息对应的度矩阵以及对角变换矩阵,确定出所述图结构信息归一化后的邻接矩阵。
可选地,所述依据所述图结构信息对应的度矩阵以及对角变换矩阵,确定出所述图结构信息归一化后的邻接矩阵包括:
调用归一化公式,对所述图结构信息对应的度矩阵以及对角变换矩阵进行处理,以得到归一化后的邻接矩阵;归一化公式为:
;
其中,表示图结构信息对应的度矩阵,表示对角变换矩阵,对角变换矩阵为将所述图结构信息对应的矩阵中对角线的数由零调整为一。
可选地,所述依据所述相似性概率矩阵以及所述训练样本包含的训练标签,确定出所述训练样本中所有节点各自对应的传播标签包括:
基于所述训练样本中各节点的训练标签分布情况,建立初始标签传播矩阵;
利用所述相似性概率矩阵对所述初始标签传播矩阵进行迭代处理,直至得到满足收敛条件的传播标签。
可选地,所述基于所述训练样本中各节点的训练标签分布情况,建立初始标签传播矩阵包括:
依据所述训练样本包含的训练标签构建标签矩阵;
基于标签类别数对所述训练样本中不包含训练标签的节点构建空标签矩阵;
将所述标签矩阵和所述空标签矩阵合并作为初始标签传播矩阵。
可选地,所述依据所述训练样本包含的训练标签构建标签矩阵包括:
依据所述训练样本包含的训练标签个数以及所述图神经网络模型对应的标签类别数,构建初始标签矩阵;
将所述初始标签矩阵中所述训练标签所匹配的位置设置为一,以得到标签矩阵。
可选地,所述基于标签类别数对所述训练样本中不包含训练标签的节点构建空标签矩阵包括:
对所述训练样本中不包含训练标签的节点分别设置与标签类别数相同的零值,以得到空标签矩阵。
可选地,所述利用所述相似性概率矩阵对所述初始标签传播矩阵进行迭代处理,直至得到满足收敛条件的传播标签包括:
将所述初始标签传播矩阵与所述相似性概率矩阵的乘积作为目标标签传播矩阵;
判断所述目标标签传播矩阵是否满足收敛条件;
在所述目标标签传播矩阵不满足收敛条件的情况下,将所述目标标签传播矩阵作为初始标签传播矩阵,返回所述将所述初始标签传播矩阵与所述相似性概率矩阵的乘积作为目标标签传播矩阵的步骤;
在所述目标标签传播矩阵满足收敛条件的情况下,将所述目标标签传播矩阵中包含的所有标签作为传播标签。
可选地,所述判断所述目标标签传播矩阵是否满足收敛条件包括:
判断收敛公式是否成立;收敛公式为:
;
其中,
F t+1表示第
t+1次迭代得到的目标标签传播矩阵,
F t 表示第
t次迭代得到的目标标签传播矩阵,
ε表示设定的收敛参数。
可选地,所述根据所述传播标签、所述训练标签、所述预测标签,对所述图神经网络模型的权重进行调整,以得到训练好的图神经网络模型包括:
基于所述训练标签与所述预测标签,确定出第一损失函数;
基于所述传播标签与所述预测标签,确定出第二损失函数;
利用所述第一损失函数与所述第二损失函数对所述图神经网络模型的权重进行调整,以得到训练好的图神经网络模型。
可选地,所述基于所述节点特征信息中各节点之间的相似性,构建相似性概率矩阵包括:
计算所述节点特征信息中各节点之间的欧式距离;
将各节点之间的欧式距离进行汇总,以得到相似性概率矩阵。
可选地,所述基于所述节点特征信息中各节点之间的相似性,构建相似性概率矩阵包括:
计算所述节点特征信息中各节点之间的余弦距离;
将各节点之间的余弦距离进行汇总,以得到相似性概率矩阵。
可选地,在所述利用所述训练好的图神经网络模型对待处理样本进行分析,以输出所述待处理样本对应的样本类别之后还包括:
获取所述待处理样本对应的实际类别标签;
在所述样本类别与所述实际类别标签不匹配的情况下,将所述待处理样本及其对应的实际类别标签添加至训练样本,并返回所述利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签的步骤。
在图神经网络模型的识别准确性不高的情况下,基于待处理样本及其对应的实际类别标签添加至训练样本,可以实现对训练样本的扩充,利用扩充后的训练样本对图神经网络模型再次进行训练,可以进一步提升图神经网络模型识别样本类别的准确性。
可选地,还包括:
在所述样本类别与所述实际类别标签匹配的情况下,记录所述待处理样本及其对应的样本类别。
本申请实施例还提供了一种样本分类装置,包括训练单元、构建单元、确定单元、调整单元和分析单元;
所述训练单元,用于利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签;
所述构建单元,用于基于所述节点特征信息中各节点之间的相似性,构建相似性概率矩阵;
所述确定单元,用于依据所述相似性概率矩阵以及所述训练样本包含的训练标签,确定出所述训练样本中所有节点各自对应的传播标签;
所述调整单元,用于根据所述传播标签、所述训练标签、所述预测标签,对所述图神经网络模型的权重进行调整,以得到训练好的图神经网络模型;
所述分析单元,用于利用所述训练好的图神经网络模型对待处理样本进行分析,以输出所述待处理样本对应的样本类别。
可选地,所述训练单元包括预处理子单元、归一化子单元和得到子单元;
所述预处理子单元,用于对所述初始节点特征信息进行预处理,得到第一节点特征信息;
所述归一化子单元,用于对所述图结构信息进行归一化处理,得到邻接矩阵;
所述得到子单元,用于基于所述第一节点特征信息、所述邻接矩阵以及所述图神经网络模型中各层图卷积对应的权重矩阵,得到融合后的节点特征信息以及所述图神经网络模型训练得到的预测标签。
可选地,所述得到子单元用于将所述第一节点特征信息、所述图神经网络模型中第一层图卷积对应的第一权重矩阵以及所述邻接矩阵的乘积作为第二节点特征信息;
将所述第二节点特征信息、所述图神经网络模型中第二层图卷积对应的第二权重矩阵以及所述邻接矩阵的乘积作为融合后的节点特征信息;
将所述融合后的节点特征信息、所述图神经网络模型中第三层图卷积对应的第三权重矩阵以及所述邻接矩阵的乘积作为待训练节点特征信息,并对所述待训练节点特征信息进行分析,以确定出所述图神经网络模型训练得到的预测标签。
可选地,所述预处理子单元用于对所述初始节点特征信息进行随机丢弃,以得到第一节点特征信息。
可选地,所述归一化子单元用于依据所述图结构信息对应的度矩阵以及对角变换矩阵,确定出所述图结构信息归一化后的邻接矩阵。
可选地,所述归一化子单元用于调用归一化公式,对所述图结构信息对应的度矩阵以及对角变换矩阵进行处理,以得到归一化后的邻接矩阵;归一化公式为:
;
其中,表示图结构信息对应的度矩阵,表示对角变换矩阵,对角变换矩阵为将所述图结构信息对应的矩阵中对角线的数由零调整为一。
可选地,所述确定单元包括建立子单元、迭代子单元;
所述建立子单元,用于基于所述训练样本中各节点的训练标签分布情况,建立初始标签传播矩阵;
所述迭代子单元,用于利用所述相似性概率矩阵对所述初始标签传播矩阵进行迭代处理,直至得到满足收敛条件的传播标签。
可选地,所述建立子单元用于依据所述训练样本包含的训练标签构建标签矩阵;
基于标签类别数对所述训练样本中不包含训练标签的节点构建空标签矩阵;
将所述标签矩阵和所述空标签矩阵合并作为初始标签传播矩阵。
可选地,所述建立子单元用于依据所述训练样本包含的训练标签个数以及所述图神经网络模型对应的标签类别数,构建初始标签矩阵;将所述初始标签矩阵中所述训练标签所匹配的位置设置为一,以得到标签矩阵。
可选地,所述建立子单元用于对所述训练样本中不包含训练标签的节点分别设置与标签类别数相同的零值,以得到空标签矩阵。
可选地,所述迭代子单元用于将所述初始标签传播矩阵与所述相似性概率矩阵的乘积作为目标标签传播矩阵;
判断所述目标标签传播矩阵是否满足收敛条件;
在所述目标标签传播矩阵不满足收敛条件的情况下,将所述目标标签传播矩阵作为初始标签传播矩阵,返回所述将所述初始标签传播矩阵与所述相似性概率矩阵的乘积作为目标标签传播矩阵的步骤;
在所述目标标签传播矩阵满足收敛条件的情况下,将所述目标标签传播矩阵中包含的所有标签作为传播标签。
可选地,所述迭代子单元用于判断收敛公式是否成立;收敛公式为:
;
其中,
F t+1表示第
t+1次迭代得到的目标标签传播矩阵,
F t 表示第
t次迭代得到的目标标签传播矩阵,
ε表示设定的收敛参数。
可选地,所述调整单元用于基于所述训练标签与所述预测标签,确定出第一损失函数;基于所述传播标签与所述预测标签,确定出第二损失函数;利用所述第一损失函数与所述第二损失函数对所述图神经网络模型的权重进行调整,以得到训练好的图神经网络模型。
可选地,所述构建单元包括第一计算子单元和第一汇总子单元;
所述第一计算子单元,用于计算所述节点特征信息中各节点之间的欧式距离;
所述第一汇总子单元,用于将各节点之间的欧式距离进行汇总,以得到相似性概率矩阵。
可选地,所述构建单元包括第二计算子单元和第二汇总子单元;
所述第二计算子单元,用于计算所述节点特征信息中各节点之间的余弦距离;
所述第二汇总子单元,用于将各节点之间的余弦距离进行汇总,以得到相似性概率矩阵。
可选地,还包括获取单元和添加单元;
所述获取单元,用于获取所述待处理样本对应的实际类别标签;
所述添加单元,用于在所述样本类别与所述实际类别标签不匹配的情况下,将所述待处理样本及其对应的实际类别标签添加至训练样本,并返回所述利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签的步骤。
可选地,还包括记录单元;
所述记录单元,用于在所述样本类别与所述实际类别标签匹配的情况下,记录所述待处理样本及其对应的样本类别。
本申请实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述样本分类方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述样本分类方法的步骤。
由上述技术方案可以看出,利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签。基于节点特征信息中各节点之间的相似性,构建相似性概率矩阵。依据相似性概率矩阵以及训练样本包含的训练标签,可以向训练样本中不具有训练标签的样本传播标签,从而确定出训练样本中所有节点各自对应的传播标签。根据传播标签、训练标签、预测标签,对图神经网络模型的权重进行调整,可以得到训练好的图神经网络模型。利用训练好的图神经网络模型对待处理样本进行分析,可以输出待处理样本对应的样本类别。在该技术方案中,一个样本即为一个节点,通过基于节点特征信息可以确定出节点之间的相似性,依赖该相似性可以使用随机游走的标签传播方式将训练标签传递到特征相似的节点上,从而增加训练时的标签数量,同时使得训练过程中的不确定性增大,解决了训练样本不足造成数据过拟合的问题,并且改善了图神经网络的泛化性能。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种样本分类方法的流程图;
图2为本申请实施例提供的一种确定训练样本中所有节点的传播标签的方法的流程图;
图3为本申请实施例提供的一种样本分类模型的框架图;
图4为本申请实施例提供的一种样本分类装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”,以及与“包括”和“具有”相关的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
接下来,详细介绍本申请实施例所提供的一种样本分类方法。图1为本申请实施例提供的一种样本分类方法的流程图,该方法包括:
S101:利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签。
在本申请实施例中,可以基于实际样本分类需求收集训练样本。样本可以为图片或者文章。出版物是文章的一种常见形式。以出版物(Cora)数据集为例,其类别可以包含基于案例、遗传算法、神经网络、概率方法、强化学习、规则学习和理论这7种类别。
以出版物数据集作为训练样本为例,训练样本可以包含多篇论文,每篇论文即为一个样本。每篇论文有其对应的初始节点特征信息,一篇文章对应的初始节点特征信息表示从该篇文章中提取出的关键词语。
举例说明,整个训练样本中可以包含 2708篇论文;每篇论文在词干堵塞和去除词尾后,保证文档频率小于10的所有单词都被删除后,可以剩下1433个唯一的单词作为初始节点特征信息。
每篇论文引用或被至少一篇其他论文引用,这些引用关系可以以图结构信息的方式呈现。图结构信息表示具有关联性的论文进行连线所形成的拓扑结构,具有关联性的两篇论文构成图结构信息的一个边。
在具体实现中,可以将一个样本看作一个节点,图结构信息表征了不同节点之间的关联性;初始节点特征信息表征了节点的特性,每个节点有其对应的初始节点特征信息。
在实际应用中,将训练样本包含的图结构信息和初始节点特征信息输入到图神经网络模型中,图神经网络模型会对图结构信息和初始节点特征信息进行处理,从而得到融合后的节点特征信息以及训练得到的预测标签。
融合后的节点特征信息指的是将图结构信息和初始节点特征信息进行综合分析后得到的节点特征信息。预测标签指的是图神经网络模型对输入的训练样本进行分析后,所确定出的训练样本中各样本所属的分类。不同的分类可以采用不同的标签进行表示。以出版物数据集为例,预测标签可以表示图神经网络模型所确定出的出版物数据集中每篇论文所属的类别。
S102:基于节点特征信息中各节点之间的相似性,构建相似性概率矩阵。
在本申请实施例中采用图神经网络模型分析样本的类别。为了保证图神经网络模型分析的准确性,需要对图神经网络模型进行训练。而训练样本的质量会影响到图神经网络模型的训练效果。考虑到实际应用中由于数据集划分不规则,导致训练样本中具有训练标签的样本数量较少,使得训练过程中很容易出现严重的训练过拟合现象。
因此在本申请实施例中,可以基于各节点之间的相似性,将具有训练标签的节点向不具有训练标签的节点传递标签,从而提升训练样本中具有标签的节点数量。
在具体实现中,可以采用矩阵的形式记录各节点之间的相似性。为了便于区分,可以将记录节点之间相似性的矩阵称作相似性概率矩阵。
以出版物数据集为例,相似性概率矩阵中第i行第j列的元素表示第i篇论文与第j篇论文之间的相似性概率。
评估节点之间的相似性的方式有多种,一种可行的方式,可以计算节点特征信息中各节点之间的欧式距离;将各节点之间的欧式距离进行汇总,以得到相似性概率矩阵。另一种可行的方式,可以计算节点特征信息中各节点之间的余弦距离;将各节点之间的余弦距离进行汇总,以得到相似性概率矩阵。
当然,在本申请实施例中,除了采用欧式距离或者余弦距离来评估节点之间的相似性之外,也可以采用曼哈顿距离、切比雪夫距离或者闵可夫斯基距离来评估节点之间的相似性。
S103:依据相似性概率矩阵以及训练样本包含的训练标签,确定出训练样本中所有节点各自对应的传播标签。
在本申请实施例中,可以采用随机游走标签传播的方式实现对训练样本中不具有训练标签的节点添加弱标签。在实际应用中,可以将相似性概率矩阵作为随机游走的邻接节点边权重。标签传播是通过节点的K邻接相似性概率矩阵P实现,概率越大表示两个节点越相似,那么标签越容易传播过去。
以出版物数据集为例,训练标签表示出版物数据集中已经确定的论文类别。传播标签包含经过标签传播后新确定出的论文类别。
在本申请实施例中,为了便于描述,通过随机游走标签传播的方式实现标签的传播后,可以将所有节点对应的标签统称为传播标签。
S104:根据传播标签、训练标签、预测标签,对图神经网络模型的权重进行调整,以得到训练好的图神经网络模型。
在具体实现中,基于训练标签与预测标签,可以确定出第一损失函数;基于传播标签与预测标签,可以出确定出第二损失函数;利用第一损失函数与第二损失函数对图神经网络模型的权重进行调整,从而得到训练好的图神经网络模型。
S105:利用训练好的图神经网络模型对待处理样本进行分析,以输出待处理样本对应的样本类别。
待处理样本指的是需要确定样本类别的样本。在获取到待处理样本时,可以将待处理样本输入到训练好的图神经网络模型,从而输出该待处理样本所属的样本类别。
由上述技术方案可以看出,利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签。基于节点特征信息中各节点之间的相似性,构建相似性概率矩阵。依据相似性概率矩阵以及训练样本包含的训练标签,可以向训练样本中不具有训练标签的样本传播标签,从而确定出训练样本中所有节点各自对应的传播标签。根据传播标签、训练标签、预测标签,对图神经网络模型的权重进行调整,可以得到训练好的图神经网络模型。利用训练好的图神经网络模型对待处理样本进行分析,可以输出待处理样本对应的样本类别。在该技术方案中,一个样本即为一个节点,通过基于节点特征信息可以确定出节点之间的相似性,依赖该相似性可以使用随机游走的标签传播方式将训练标签传递到特征相似的节点上,从而增加训练时的标签数量,同时使得训练过程中的不确定性增大,解决了训练样本不足造成数据过拟合的问题,并且改善了图神经网络的泛化性能。
图神经网络是一种基于图神经网络的半监督分类,它可以直接在图上工作,并利用图的结构信息。它解决的是对图(如引文网络)中的节点(如文档)进行分类的问题,其对应的训练样本往往仅有一小部分节点有训练标签。其是在一张图形网络(Graph Network)中的特征(Feature)和消息(Message)的流动和传播,这个传播最原始的形态就是状态的变化正比于相应空间拉普拉斯算子作用在当前的状态。
;
其中,
H (
l+1)表示图神经网络的输出,
H (
l)表示图神经网络的输入,
σ表示图神经网络的常规参数,
A表示图结构信息对应的矩阵,表示图结构信息对应的对角变换矩阵,表示图结构信息对应的度矩阵,表示归一化后的邻接矩阵,
W (
l)表示图神经网络第
l层的权重矩阵。
在具体实现中,在获取到训练样本后,可以对训练样本中包含的初始节点特征信息进行预处理,得到第一节点特征信息。对图结构信息进行归一化处理,得到邻接矩阵。基于第一节点特征信息、邻接矩阵以及图神经网络模型中各层图卷积对应的权重矩阵,得到融合后的节点特征信息以及图神经网络模型训练得到的预测标签。
预处理的过程可以包括在每次训练时对初始节点特征信息进行随机丢弃(dropout),以得到第一节点特征信息。
随机丢弃可以是在每次训练时忽略一半的初始节点特征信息,从而明显地减少过拟合现象。
对图结构信息的归一化处理可以包括依据图结构信息对应的度矩阵以及对角变换矩阵,确定出图结构信息归一化后的邻接矩阵。
在具体实现中,可以预先设置归一化公式。调用归一化公式,对图结构信息对应的度矩阵以及对角变换矩阵进行处理,以得到归一化后的邻接矩阵;归一化公式为:
;
其中,表示图结构信息对应的度矩阵,表示对角变换矩阵,对角变换矩阵为将图结构信息对应的矩阵中对角线的数由零调整为一。
在本申请实施例中,可以采用三层图卷积的图神经网络模型对训练样本进行训练。每一层图卷积有其对应的权重矩阵。
在具体实现中,可以将第一节点特征信息、图神经网络模型中第一层图卷积对应的第一权重矩阵以及邻接矩阵的乘积作为第二节点特征信息;将第二节点特征信息、图神经网络模型中第二层图卷积对应的第二权重矩阵以及邻接矩阵的乘积作为融合后的节点特征信息;将融合后的节点特征信息、图神经网络模型中第三层图卷积对应的第三权重矩阵以及邻接矩阵的乘积作为待训练节点特征信息,并对待训练节点特征信息进行分析,以确定出图神经网络模型训练得到的预测标签。
举例说明,第一节点特征信息可以采用矩阵的形式表示,以features代表矩阵形式的第一节点特征信息。采用support表示邻接矩阵。图神经网络模型中每一层图卷积对应的权重矩阵分别为weights_0、weights_1和weights_2。将features和weights_0进行稀疏矩阵和稠密矩阵的相乘,得到稠密矩阵pre_sup。然后,使用邻接矩阵的归一化形式support和最新的pre_sup,进行稀疏矩阵和稠密矩阵的相乘,得到第二节点特征信息。
将第二节点特征信息和weights_1进行稀疏矩阵和稠密矩阵的相乘,得到稠密矩阵pre_sup。然后,使用邻接矩阵的归一化形式support和最新的pre_sup,进行稀疏矩阵和稠密矩阵的相乘,得到融合后的节点特征信息。将融合后的节点特征信息和weights_2进行稀疏矩阵和稠密矩阵的相乘,得到稠密矩阵pre_sup。然后,使用邻接矩阵的归一化形式support和最新的pre_sup,进行稀疏矩阵和稠密矩阵的相乘,得到待训练节点特征信息,并对待训练节点特征信息进行分析,可以确定出图神经网络模型训练得到的预测标签。
在本申请实施例中,通过对初始节点特征信息进行随机丢弃,可以保证每次训练时样本的不饱和性,从而减少过拟合现象。采用三层图卷积的图神经网络模型对训练样本进行训练,依赖于前两层图卷积可以得到融合后的节点特征信息,该融合后的节点特征信息充分保留了节点特性和相关性;依据第三层图卷积可以确定出图神经网络模型训练得到的预测标签。
图2为本申请实施例提供的一种确定训练样本中所有节点的传播标签的方法的流程图,该方法包括:
S201:基于训练样本中各节点的训练标签分布情况,建立初始标签传播矩阵。
在本申请实施例中,可以将样本对应的所有标签类别作为图神经网络模型的输出维度,例如样本对应的标签类别有10种,则图神经网络模型可以有10个输出,每个输出对应一个标签类别。
在具体实现中,可以依据训练样本包含的训练标签构建标签矩阵;基于标签类别数对训练样本中不包含训练标签的节点构建空标签矩阵;将标签矩阵和空标签矩阵合并作为初始标签传播矩阵。
对于标签矩阵的构建,可以依据训练样本包含的训练标签个数以及图神经网络模型对应的标签类别数,构建初始标签矩阵;将初始标签矩阵中训练标签所匹配的位置设置为一,以得到标签矩阵。
举例说明,标签类别数为C个,训练样本包含有N个样本,其中L个样本具有训练标签,则可以建立L×C的初始标签矩阵,第i行表示第i个样本具有训练标签,如果第i行的类别是j,则可以将该行的第j个元素设置为1,该行的其余元素设置为0,从而构建出标签矩阵。
对于空标签矩阵的构建,可以对训练样本中不包含训练标签的节点分别设置与标签类别数相同的零值,以得到空标签矩阵。
举例说明,标签类别数为C个,训练样本包含有N个样本,其中L个样本具有训练标签,则不具有训练标签的样本数为N-L个,可以建立(N-L)×C的空标签矩阵,空标签矩阵中各元素均设置为0。
将标签矩阵和空标签矩阵进行合并,可以得到初始标签传播矩阵,结合上述举例将L×C的标签矩阵和(N-L)×C的空标签矩阵合并,可以得到N×C的初始标签传播矩阵。
在构建矩阵时保留了训练样本属于每个类别的概率,而不是互斥性的,这个样本以概率1只属于一个类。当然了最后确定这个样本的类别的时候,是取max也就是概率最大的那个类别作为它的类别。
在建立好初始标签传播矩阵后,可以利用相似性概率矩阵对初始标签传播矩阵进行迭代处理,直至得到满足收敛条件的传播标签,具体实现过程可以参见S202至S205的介绍。
S202:将初始标签传播矩阵与相似性概率矩阵的乘积作为目标标签传播矩阵。
在本申请实施例中,需要利用相似性概率矩阵对初始标签传播矩阵进行不断的迭代处理,从而确定出满足收敛条件的传播标签。
为了便于介绍,可以采用
F t 表示第
t次迭代确定出的目标标签传播矩阵,采用
P表示相似性概率矩阵。
F t+1=
F t ×
P,
F t+1表示第
t+1次迭代确定出的目标标签传播矩阵。
每个节点都将自己的训练标签(label)以
P确定的概率传播给其他节点。如果两个节点越相似,那么对方的label就越容易被自己的label赋予。
在初始状态下,
F 0表示的是初始标签传播矩阵。
S203:判断目标标签传播矩阵是否满足收敛条件。
在目标标签传播矩阵不满足收敛条件的情况下,说明仍需执行迭代处理,此时可以执行S204;在目标标签传播矩阵满足收敛条件的情况下,说明当前确定出的目标标签传播矩阵已经满足要求,此时可以执行S205。
在具体实现中,可以预先建立收敛公式,在确定出目标标签传播矩阵后,可以判断收敛公式是否成立;收敛公式为:
;
其中,
F t+1表示第
t+1次迭代得到的目标标签传播矩阵,
F t 表示第
t次迭代得到的目标标签传播矩阵,
ε表示设定的收敛参数。
在收敛公式成立的情况下,说明标签的传播已经到达较好的效果,此时可以执行S205,即直接将目标标签传播矩阵中包含的所有标签作为传播标签。
在收敛公式不成立的情况下,说明标签的传播还未达到较好的效果,此时可以对目标标签传播矩阵继续进行迭代处理,即执行S204。
因为训练样本包含的训练标签是事先确定的,它不能被带跑,所以每次传播完,它都得回归它本来的label。随着具有标签的样本不断的将自己的标签传播出去,最后的类边界会穿越高密度区域,而停留在低密度的间隔中,相当于每个不同类别的样本划分了势力范围。
S204:将目标标签传播矩阵作为初始标签传播矩阵,返回将初始标签传播矩阵与相似性概率矩阵的乘积作为目标标签传播矩阵的步骤。
当前迭代周期确定出的目标标签传播矩阵可以看作是下一个迭代周期的初始标签传播矩阵,返回步骤S202可以对当前迭代周期确定出的目标标签传播矩阵进行下一轮的迭代。
S205:将目标标签传播矩阵中包含的所有标签作为传播标签。
在确定出满足收敛条件的目标标签传播矩阵后,该目标标签传播矩阵中不仅包含了训练标签,还包含了经过标签传播后原本不具有训练标签的节点所匹配的标签。
图3为本申请实施例提供的一种样本分类模型的框架图,该样本分类模型是在图神经网络模型的基础上,引入了随机游走标签传播技术。基于样本分类模型所需实现的功能,样本分类模型可以包括图神经网络模块、特征相似性概率矩阵模块、随机游走的标签传播模块。其中,图神经网络模块可以包含三个图卷积子模块,分别为第一层图卷积子模块(Hidden_layer1)、第二层图卷积子模块(Hidden_layer2)和第三层图卷积子模块(Linear_layer)。这三个图卷积子模块有其各自对应的权重矩阵。
在实际应用中,可以将训练样本包含的图结构信息和初始节点特征信息输入到第一层图卷积子模块,第一层图卷积子模块可以将输出的节点特征信息作为第二层图卷积的输入。为了便于区分,可以将第一层图卷积子模块输出的节点特征信息称作第二节点特征信息。在本申请实施例中,采用第二层图卷积子模块输出的节点特征信息作为融合后的节点特征信息。采用第三层图卷积子模块用于预测训练样本中各样本对应的标签,可以将这些标签称作预测标签。
第二层图卷积子模块将输出的融合后的节点特征信息作为特征相似性概率矩阵模块的输入,特征相似性概率矩阵模块可以基于节点特征信息分析各节点之间的相似性,从而输出相似性概率矩阵。随机游走的标签传播模块基于特征相似性概率矩阵模块传输的相似性概率矩阵以及训练样本包含的训练标签,进行节点之间的标签传播,使得节点的训练标签能够在邻居节点内进行传播,从而增大训练样本中具有标签的样本量。
在本申请实施例中,可以通过传播标签收集模块统计随机游走的标签传播模块输出的目标标签传播矩阵中包含的传播标签。基于预测标签和训练标签可以计算出第一损失函数;基于传播标签和预测标签可以计算出第二损失函数。将第一损失函数和第二损失函数相加作为最终的损失函数,基于最终的损失函数可以实现对图神经网络模块中各子模块权重矩阵的调整,从而得到训练好的图神经网络模型。后续直接调用训练好的图神经网络模型对待处理样本进行分析即可,无需每次重复上述的训练过程。
在本申请实施例中,使用三层图卷积的图神经网络和标签传播算法,将图神经网络的全图结构参与一次训练改为节点的K阶邻居;并计算节点间的相似性概率矩阵,合并标签传播算法,使节点的训练标签能够在邻居节点内进行传播,增大训练样本中具有标签的样本量。由于传播的标签并非是样本真实的标签,因此标签的正确性无法保证,从而增加了样本的不确定性,达到减缓训练时过拟合现象的目的,增强了图神经网络的泛化性能。又因每次计算K阶邻居节点的数据,数量可控,解决了模型无法适用于大型数据集的问题。
在本申请实施例中,在利用训练好的图神经网络模型对待处理样本进行分析,以输出待处理样本对应的样本类别之后,可以获取待处理样本对应的实际类别标签。将实际类别标签与模型确定出的样本类别进行比较。
在样本类别与实际类别标签不匹配的情况下,说明图神经网络模型的准确性有待提高,此时可以将待处理样本及其对应的实际类别标签添加至训练样本,并返回利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签的步骤。
在样本类别与实际类别标签匹配的情况下,说明图神经网络模型可以准确的分析出样本的类别。考虑到实际应用中,短时间内用户可能具有查看待处理样本所属样本类别的需求,为了便于用户查询,可以记录待处理样本及其对应的样本类别。
在本申请实施例中,在图神经网络模型的识别准确性不高的情况下,基于待处理样本及其对应的实际类别标签添加至训练样本,可以实现对训练样本的扩充,利用扩充后的训练样本对图神经网络模型再次进行训练,可以进一步提升图神经网络模型识别样本类别的准确性。
图4为本申请实施例提供的一种样本分类装置的结构示意图,包括训练单元41、构建单元42、确定单元43、调整单元44和分析单元45;
训练单元41,用于利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签;
构建单元42,用于基于节点特征信息中各节点之间的相似性,构建相似性概率矩阵;
确定单元43,用于依据相似性概率矩阵以及训练样本包含的训练标签,确定出训练样本中所有节点各自对应的传播标签;
调整单元44,用于根据传播标签、训练标签、预测标签,对图神经网络模型的权重进行调整,以得到训练好的图神经网络模型;
分析单元45,用于利用训练好的图神经网络模型对待处理样本进行分析,以输出待处理样本对应的样本类别。
可选地,训练单元包括预处理子单元、归一化子单元和得到子单元;
预处理子单元,用于对初始节点特征信息进行预处理,得到第一节点特征信息;
归一化子单元,用于对图结构信息进行归一化处理,得到邻接矩阵;
得到子单元,用于基于第一节点特征信息、邻接矩阵以及图神经网络模型中各层图卷积对应的权重矩阵,得到融合后的节点特征信息以及图神经网络模型训练得到的预测标签。
可选地,得到子单元用于将第一节点特征信息、图神经网络模型中第一层图卷积对应的第一权重矩阵以及邻接矩阵的乘积作为第二节点特征信息;
将第二节点特征信息、图神经网络模型中第二层图卷积对应的第二权重矩阵以及邻接矩阵的乘积作为融合后的节点特征信息;
将融合后的节点特征信息、图神经网络模型中第三层图卷积对应的第三权重矩阵以及邻接矩阵的乘积作为待训练节点特征信息,并对待训练节点特征信息进行分析,以确定出图神经网络模型训练得到的预测标签。
可选地,预处理子单元用于对初始节点特征信息进行随机丢弃,以得到第一节点特征信息。
可选地,归一化子单元用于依据图结构信息对应的度矩阵以及对角变换矩阵,确定出图结构信息归一化后的邻接矩阵。
可选地,归一化子单元用于调用归一化公式,对图结构信息对应的度矩阵以及对角变换矩阵进行处理,以得到归一化后的邻接矩阵;归一化公式为:
;
其中,表示图结构信息对应的度矩阵,表示对角变换矩阵,对角变换矩阵为将图结构信息对应的矩阵中对角线的数由零调整为一。
可选地,确定单元包括建立子单元、迭代子单元;
建立子单元,用于基于训练样本中各节点的训练标签分布情况,建立初始标签传播矩阵;
迭代子单元,用于利用相似性概率矩阵对初始标签传播矩阵进行迭代处理,直至得到满足收敛条件的传播标签。
可选地,建立子单元用于依据训练样本包含的训练标签构建标签矩阵;
基于标签类别数对训练样本中不包含训练标签的节点构建空标签矩阵;
将标签矩阵和空标签矩阵合并作为初始标签传播矩阵。
可选地,建立子单元用于依据训练样本包含的训练标签个数以及图神经网络模型对应的标签类别数,构建初始标签矩阵;将初始标签矩阵中训练标签所匹配的位置设置为一,以得到标签矩阵。
可选地,建立子单元用于对训练样本中不包含训练标签的节点分别设置与标签类别数相同的零值,以得到空标签矩阵。
可选地,迭代子单元用于将初始标签传播矩阵与相似性概率矩阵的乘积作为目标标签传播矩阵;
判断目标标签传播矩阵是否满足收敛条件;
在目标标签传播矩阵不满足收敛条件的情况下,将目标标签传播矩阵作为初始标签传播矩阵,返回将初始标签传播矩阵与相似性概率矩阵的乘积作为目标标签传播矩阵的步骤;
在目标标签传播矩阵满足收敛条件的情况下,将目标标签传播矩阵中包含的所有标签作为传播标签。
可选地,迭代子单元用于判断收敛公式是否成立;收敛公式为:
;
其中,
F t+1表示第
t+1次迭代得到的目标标签传播矩阵,
F t 表示第
t次迭代得到的目标标签传播矩阵,
ε表示设定的收敛参数。
可选地,调整单元用于基于训练标签与预测标签,确定出第一损失函数;基于传播标签与预测标签,确定出第二损失函数;利用第一损失函数与第二损失函数对图神经网络模型的权重进行调整,以得到训练好的图神经网络模型。
可选地,构建单元包括第一计算子单元和第一汇总子单元;
第一计算子单元,用于计算节点特征信息中各节点之间的欧式距离;
第一汇总子单元,用于将各节点之间的欧式距离进行汇总,以得到相似性概率矩阵。
可选地,构建单元包括第二计算子单元和第二汇总子单元;
第二计算子单元,用于计算节点特征信息中各节点之间的余弦距离;
第二汇总子单元,用于将各节点之间的余弦距离进行汇总,以得到相似性概率矩阵。
可选地,还包括获取单元和添加单元;
获取单元,用于获取待处理样本对应的实际类别标签;
添加单元,用于在样本类别与实际类别标签不匹配的情况下,将待处理样本及其对应的实际类别标签添加至训练样本,并返回利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签的步骤。
可选地,还包括记录单元;
记录单元,用于在样本类别与实际类别标签匹配的情况下,记录待处理样本及其对应的样本类别。
图4所对应实施例中特征的说明可以参见图1至图3所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签。基于节点特征信息中各节点之间的相似性,构建相似性概率矩阵。依据相似性概率矩阵以及训练样本包含的训练标签,可以向训练样本中不具有训练标签的样本传播标签,从而确定出训练样本中所有节点各自对应的传播标签。根据传播标签、训练标签、预测标签,对图神经网络模型的权重进行调整,可以得到训练好的图神经网络模型。利用训练好的图神经网络模型对待处理样本进行分析,可以输出待处理样本对应的样本类别。在该技术方案中,一个样本即为一个节点,通过基于节点特征信息可以确定出节点之间的相似性,依赖该相似性可以使用随机游走的标签传播方式将训练标签传递到特征相似的节点上,从而增加训练时的标签数量,同时使得训练过程中的不确定性增大,解决了训练样本不足造成数据过拟合的问题,并且改善了图神经网络的泛化性能。
图5为本申请实施例提供的一种电子设备的结构图,如图5所示,电子设备包括:存储器50,用于存储计算机程序;
处理器51,用于执行计算机程序时实现如上述实施例样本分类方法的步骤。
本实施例提供的电子设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器51可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器51可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器51也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器51可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器51还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器50可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器50还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器50至少用于存储以下计算机程序501,其中,该计算机程序被处理器51加载并执行之后,能够实现前述任一实施例公开的样本分类方法的相关步骤。另外,存储器50所存储的资源还可以包括操作系统502和数据503等,存储方式可以是短暂存储或者永久存储。其中,操作系统502可以包括Windows、Unix、Linux等。数据503可以包括但不限于训练样本包含的图结构信息和初始节点特征信息、训练标签等。
在一些实施例中,电子设备还可包括有显示屏52、输入输出接口53、通信接口54、电源55以及通信总线56。
本领域技术人员可以理解,图5中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的组件。
可以理解的是,如果上述实施例中的样本分类方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述样本分类方法的步骤。
以上对本申请实施例所提供的一种样本分类方法、装置、设备和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上对本申请所提供的一种样本分类方法、装置、设备和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (20)
1.一种样本分类方法,其特征在于,包括:
利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签;
基于所述节点特征信息中各节点之间的相似性,构建相似性概率矩阵;
依据所述相似性概率矩阵以及所述训练样本包含的训练标签,确定出所述训练样本中所有节点各自对应的传播标签;
根据所述传播标签、所述训练标签、所述预测标签,对所述图神经网络模型的权重进行调整,以得到训练好的图神经网络模型;
利用所述训练好的图神经网络模型对待处理样本进行分析,以输出所述待处理样本对应的样本类别。
2.根据权利要求1所述的样本分类方法,其特征在于,所述利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签包括:
对所述初始节点特征信息进行预处理,得到第一节点特征信息;
对所述图结构信息进行归一化处理,得到邻接矩阵;
基于所述第一节点特征信息、所述邻接矩阵以及所述图神经网络模型中各层图卷积对应的权重矩阵,得到融合后的节点特征信息以及所述图神经网络模型训练得到的预测标签。
3.根据权利要求2所述的样本分类方法,其特征在于,所述基于所述第一节点特征信息、所述邻接矩阵以及所述图神经网络模型中各层图卷积对应的权重矩阵,得到融合后的节点特征信息以及所述图神经网络模型训练得到的预测标签包括:
将所述第一节点特征信息、所述图神经网络模型中第一层图卷积对应的第一权重矩阵以及所述邻接矩阵的乘积作为第二节点特征信息;
将所述第二节点特征信息、所述图神经网络模型中第二层图卷积对应的第二权重矩阵以及所述邻接矩阵的乘积作为融合后的节点特征信息;
将所述融合后的节点特征信息、所述图神经网络模型中第三层图卷积对应的第三权重矩阵以及所述邻接矩阵的乘积作为待训练节点特征信息,并对所述待训练节点特征信息进行分析,以确定出所述图神经网络模型训练得到的预测标签。
4.根据权利要求2所述的样本分类方法,其特征在于,所述对所述初始节点特征信息进行预处理,得到第一节点特征信息包括:
对所述初始节点特征信息进行随机丢弃,以得到第一节点特征信息。
5.根据权利要求2所述的样本分类方法,其特征在于,所述对所述图结构信息进行归一化处理,得到邻接矩阵包括:
依据所述图结构信息对应的度矩阵以及对角变换矩阵,确定出所述图结构信息归一化后的邻接矩阵。
6.根据权利要求5所述的样本分类方法,其特征在于,所述依据所述图结构信息对应的度矩阵以及对角变换矩阵,确定出所述图结构信息归一化后的邻接矩阵包括:
调用归一化公式,对所述图结构信息对应的度矩阵以及对角变换矩阵进行处理,以得到归一化后的邻接矩阵;归一化公式为:
;
其中,表示图结构信息对应的度矩阵,表示对角变换矩阵,对角变换矩阵为将所述图结构信息对应的矩阵中对角线的数由零调整为一。
7.根据权利要求1所述的样本分类方法,其特征在于,所述依据所述相似性概率矩阵以及所述训练样本包含的训练标签,确定出所述训练样本中所有节点各自对应的传播标签包括:
基于所述训练样本中各节点的训练标签分布情况,建立初始标签传播矩阵;
利用所述相似性概率矩阵对所述初始标签传播矩阵进行迭代处理,直至得到满足收敛条件的传播标签。
8.根据权利要求7所述的样本分类方法,其特征在于,所述基于所述训练样本中各节点的训练标签分布情况,建立初始标签传播矩阵包括:
依据所述训练样本包含的训练标签构建标签矩阵;
基于标签类别数对所述训练样本中不包含训练标签的节点构建空标签矩阵;
将所述标签矩阵和所述空标签矩阵合并作为初始标签传播矩阵。
9.根据权利要求8所述的样本分类方法,其特征在于,所述依据所述训练样本包含的训练标签构建标签矩阵包括:
依据所述训练样本包含的训练标签个数以及所述图神经网络模型对应的标签类别数,构建初始标签矩阵;
将所述初始标签矩阵中所述训练标签所匹配的位置设置为一,以得到标签矩阵。
10.根据权利要求9所述的样本分类方法,其特征在于,所述基于标签类别数对所述训练样本中不包含训练标签的节点构建空标签矩阵包括:
对所述训练样本中不包含训练标签的节点分别设置与标签类别数相同的零值,以得到空标签矩阵。
11.根据权利要求7所述的样本分类方法,其特征在于,所述利用所述相似性概率矩阵对所述初始标签传播矩阵进行迭代处理,直至得到满足收敛条件的传播标签包括:
将所述初始标签传播矩阵与所述相似性概率矩阵的乘积作为目标标签传播矩阵;
判断所述目标标签传播矩阵是否满足收敛条件;
在所述目标标签传播矩阵不满足收敛条件的情况下,将所述目标标签传播矩阵作为初始标签传播矩阵,返回所述将所述初始标签传播矩阵与所述相似性概率矩阵的乘积作为目标标签传播矩阵的步骤;
在所述目标标签传播矩阵满足收敛条件的情况下,将所述目标标签传播矩阵中包含的所有标签作为传播标签。
12.根据权利要求11所述的样本分类方法,其特征在于,所述判断所述目标标签传播矩阵是否满足收敛条件包括:
判断收敛公式是否成立;收敛公式为:
;
其中,F t+1表示第t+1次迭代得到的目标标签传播矩阵,F t 表示第t次迭代得到的目标标签传播矩阵,ε表示设定的收敛参数。
13.根据权利要求1所述的样本分类方法,其特征在于,所述根据所述传播标签、所述训练标签、所述预测标签,对所述图神经网络模型的权重进行调整,以得到训练好的图神经网络模型包括:
基于所述训练标签与所述预测标签,确定出第一损失函数;
基于所述传播标签与所述预测标签,确定出第二损失函数;
利用所述第一损失函数与所述第二损失函数对所述图神经网络模型的权重进行调整,以得到训练好的图神经网络模型。
14.根据权利要求1所述的样本分类方法,其特征在于,所述基于所述节点特征信息中各节点之间的相似性,构建相似性概率矩阵包括:
计算所述节点特征信息中各节点之间的欧式距离;
将各节点之间的欧式距离进行汇总,以得到相似性概率矩阵。
15.根据权利要求1所述的样本分类方法,其特征在于,所述基于所述节点特征信息中各节点之间的相似性,构建相似性概率矩阵包括:
计算所述节点特征信息中各节点之间的余弦距离;
将各节点之间的余弦距离进行汇总,以得到相似性概率矩阵。
16.根据权利要求1至15任意一项所述的样本分类方法,其特征在于,在所述利用所述训练好的图神经网络模型对待处理样本进行分析,以输出所述待处理样本对应的样本类别之后还包括:
获取所述待处理样本对应的实际类别标签;
在所述样本类别与所述实际类别标签不匹配的情况下,将所述待处理样本及其对应的实际类别标签添加至训练样本,并返回所述利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签的步骤。
17.根据权利要求16所述的样本分类方法,其特征在于,还包括:
在所述样本类别与所述实际类别标签匹配的情况下,记录所述待处理样本及其对应的样本类别。
18.一种样本分类装置,其特征在于,包括训练单元、构建单元、确定单元、调整单元和分析单元;
所述训练单元,用于利用训练样本包含的图结构信息和初始节点特征信息,对图神经网络模型进行训练,以得到融合后的节点特征信息以及训练得到的预测标签;
所述构建单元,用于基于所述节点特征信息中各节点之间的相似性,构建相似性概率矩阵;
所述确定单元,用于依据所述相似性概率矩阵以及所述训练样本包含的训练标签,确定出所述训练样本中所有节点各自对应的传播标签;
所述调整单元,用于根据所述传播标签、所述训练标签、所述预测标签,对所述图神经网络模型的权重进行调整,以得到训练好的图神经网络模型;
所述分析单元,用于利用所述训练好的图神经网络模型对待处理样本进行分析,以输出所述待处理样本对应的样本类别。
19.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至17任意一项所述样本分类方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至17任意一项所述样本分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417849.8A CN116127386B (zh) | 2023-04-19 | 2023-04-19 | 一种样本分类方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417849.8A CN116127386B (zh) | 2023-04-19 | 2023-04-19 | 一种样本分类方法、装置、设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116127386A true CN116127386A (zh) | 2023-05-16 |
CN116127386B CN116127386B (zh) | 2023-08-08 |
Family
ID=86299509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310417849.8A Active CN116127386B (zh) | 2023-04-19 | 2023-04-19 | 一种样本分类方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127386B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203940A1 (en) * | 2006-02-27 | 2007-08-30 | Microsoft Corporation | Propagating relevance from labeled documents to unlabeled documents |
US9852231B1 (en) * | 2014-11-03 | 2017-12-26 | Google Llc | Scalable graph propagation for knowledge expansion |
US20190251480A1 (en) * | 2018-02-09 | 2019-08-15 | NEC Laboratories Europe GmbH | Method and system for learning of classifier-independent node representations which carry class label information |
CN112580742A (zh) * | 2020-12-29 | 2021-03-30 | 中国科学技术大学 | 基于标签传播的图神经网络快速训练方法 |
CN112925909A (zh) * | 2021-02-24 | 2021-06-08 | 中国科学院地理科学与资源研究所 | 一种考虑局部不变性约束的图卷积文献分类方法及系统 |
CN113361627A (zh) * | 2021-06-23 | 2021-09-07 | 中国科学技术大学 | 一种面向图神经网络的标签感知协同训练方法 |
US20210374499A1 (en) * | 2020-05-26 | 2021-12-02 | International Business Machines Corporation | Iterative deep graph learning for graph neural networks |
US11227190B1 (en) * | 2021-06-29 | 2022-01-18 | Alipay (Hangzhou) Information Technology Co., Ltd. | Graph neural network training methods and systems |
CA3131843A1 (en) * | 2020-09-25 | 2022-03-25 | Royal Bank Of Canada | System and method for structure learning for graph neural networks |
CN114329232A (zh) * | 2022-01-06 | 2022-04-12 | 河海大学 | 一种基于科研网络的用户画像构建方法和系统 |
CN115309931A (zh) * | 2022-08-10 | 2022-11-08 | 齐鲁工业大学 | 一种基于图神经网络的论文文本分类方法及系统 |
-
2023
- 2023-04-19 CN CN202310417849.8A patent/CN116127386B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203940A1 (en) * | 2006-02-27 | 2007-08-30 | Microsoft Corporation | Propagating relevance from labeled documents to unlabeled documents |
US9852231B1 (en) * | 2014-11-03 | 2017-12-26 | Google Llc | Scalable graph propagation for knowledge expansion |
US20190251480A1 (en) * | 2018-02-09 | 2019-08-15 | NEC Laboratories Europe GmbH | Method and system for learning of classifier-independent node representations which carry class label information |
US20210374499A1 (en) * | 2020-05-26 | 2021-12-02 | International Business Machines Corporation | Iterative deep graph learning for graph neural networks |
CA3131843A1 (en) * | 2020-09-25 | 2022-03-25 | Royal Bank Of Canada | System and method for structure learning for graph neural networks |
CN112580742A (zh) * | 2020-12-29 | 2021-03-30 | 中国科学技术大学 | 基于标签传播的图神经网络快速训练方法 |
CN112925909A (zh) * | 2021-02-24 | 2021-06-08 | 中国科学院地理科学与资源研究所 | 一种考虑局部不变性约束的图卷积文献分类方法及系统 |
CN113361627A (zh) * | 2021-06-23 | 2021-09-07 | 中国科学技术大学 | 一种面向图神经网络的标签感知协同训练方法 |
US11227190B1 (en) * | 2021-06-29 | 2022-01-18 | Alipay (Hangzhou) Information Technology Co., Ltd. | Graph neural network training methods and systems |
CN114329232A (zh) * | 2022-01-06 | 2022-04-12 | 河海大学 | 一种基于科研网络的用户画像构建方法和系统 |
CN115309931A (zh) * | 2022-08-10 | 2022-11-08 | 齐鲁工业大学 | 一种基于图神经网络的论文文本分类方法及系统 |
Non-Patent Citations (3)
Title |
---|
HONGWEI WANG等: ""Unifying Graph Convolutional Neural Networks and Label Propagation"", 《ARXIV:2002.06755V1》 * |
ZHAO LI等: ""Cyclic label propagation for graph semi-supervised learning"", 《WORLD WIDE WEB》, vol. 25 * |
李社蕾等: ""图卷积神经网络基础图结构影响研究"", 《小型微型计算机系统》, vol. 42, no. 4 * |
Also Published As
Publication number | Publication date |
---|---|
CN116127386B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471938B (zh) | 一种文本分类方法及终端 | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
WO2023134084A1 (zh) | 多标签识别方法、装置、电子设备及存储介质 | |
WO2022116771A1 (en) | Method for analyzing emotion shown in image and related devices | |
CN110046249A (zh) | 胶囊网络的训练方法、分类方法、系统、设备及存储介质 | |
CN112949476B (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN113139052B (zh) | 基于图神经网络特征聚合的谣言检测方法及装置 | |
CN113435182B (zh) | 自然语言处理中分类标注的冲突检测方法、装置和设备 | |
CN109960791A (zh) | 判断文本情感的方法及存储介质、终端 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、系统及存储介质 | |
CN114223012A (zh) | 推送对象确定方法、装置、终端设备及存储介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN112131506A (zh) | 一种网页分类方法、终端设备及存储介质 | |
CN117076946A (zh) | 一种短文本相似度确定方法、装置及终端 | |
CN112131199A (zh) | 一种日志处理方法、装置、设备及介质 | |
CN116127386B (zh) | 一种样本分类方法、装置、设备和计算机可读存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
WO2024217247A1 (zh) | 一种样本分类方法、装置、设备和计算机可读存储介质 | |
Azeez Joodi et al. | A New Proposed Hybrid Learning Approach with Features for Extraction of Image Classification | |
CN111291182A (zh) | 热点事件发现方法、装置、设备及存储介质 | |
CN118410805B (zh) | 基于关系图卷积神经网络的中文作者姓名消歧方法及装置 | |
CN112085040A (zh) | 对象标签确定方法、装置和计算机设备 | |
CN114898339B (zh) | 驾驶行为预测模型的训练方法、装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |