CN114139593A - 一种去偏差图神经网络的训练方法、装置和电子设备 - Google Patents

一种去偏差图神经网络的训练方法、装置和电子设备 Download PDF

Info

Publication number
CN114139593A
CN114139593A CN202111050184.9A CN202111050184A CN114139593A CN 114139593 A CN114139593 A CN 114139593A CN 202111050184 A CN202111050184 A CN 202111050184A CN 114139593 A CN114139593 A CN 114139593A
Authority
CN
China
Prior art keywords
sample
neural network
graph
trained
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111050184.9A
Other languages
English (en)
Inventor
石川
王啸
范少华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111050184.9A priority Critical patent/CN114139593A/zh
Publication of CN114139593A publication Critical patent/CN114139593A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明实施例提供了一种去偏差图神经网络的训练方法、装置和电子设备,方法包括:将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络;基于样本图数据和样本标签索引提取需要去相关的特征变量;基于所述特征变量确定样本图数据对应的样本权重;基于特征变量和样本权重确定第一损失函数,并基于第一损失函数判断待训练去偏差图神经网络是否收敛;若收敛,确定待训练去偏差图神经网络为目标去偏差图神经网络;若未收敛,反复迭代直至收敛。该方法训练的目标去偏差图神经网络可以减小训练节点的偏差,提高了去偏差图神经网络泛化到测试节点上的效果。

Description

一种去偏差图神经网络的训练方法、装置和电子设备
技术领域
本发明应用于深度学习技术领域,特别是涉及一种去偏差图神经网络的 训练方法、装置和电子设备。
背景技术
GNN(Graph Neural Networks,图神经网络)是一种基于图数据结构的 深度学习方法,其被广泛应用于推荐系统、金融风控和知识图谱等领域。图 数据是由一系列的对象和对象之间的关系组成的结构化数据。通常可以用G= (V,E)表示图数据,其中,V为图数据所有节点的集合,每个节点表示表征 一个图数据的对象,E为图数据中所有边的集合,两个节点之间的连线构成 的边用于表示该两个节点所表征的对象之间的关系。
现有的GNN主要是通过从节点聚合特征来学习节点嵌入,并由节点标签 以端到端的方式进行监督学习。具体的,GNN通过有效学习图数据结构的特 征和带有标签的节点之间的相关性,从而使GNN自身能够学习新节点的表示, 推断出新节点的标签。
然而,现有的GNN在训练过程中存在参数估计偏差的问题,并且参数估 计偏差问题会极大地影响所训练的GNN网络泛化到测试节点上的效果。例如, 以训练科学家合作网络为例,如果大多数具有“机器学习”(ML)标签的科学 家与具有“计算机视觉”(CV)标签的科学家合作,现有的GNN可能会学得 虚假的相关性,即学习到和CV科学家合作的科学家为ML科学家。如果测 试集中测试节点表征的新ML科学家仅与ML科学家合作。那么利用学习到虚假相关性的GNN模型对测试节点进行分类,则可能导致对新ML科学家的 错误分类。
发明内容
本发明实施例的目的在于提供一种去偏差图神经网络的训练方法、装置 和电子设备,以提高所训练的去偏差图神经网络泛化到测试节点上的效果。
为了达到上述目的,本发明实施例提供了一种去偏差图神经网络的训练 方法,包括:
将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络; 其中,所述样本图数据包括:多个节点、每个节点的节点特征和部分节点的 预设节点标签;所述样本标签索引为所述样本图数据中部分节点的预设节点 标签的索引;待训练去偏差图神经网络包括:特征变量提取层、去偏差层和 输出层;
所述特征变量提取层,基于所述样本图数据和所述样本标签索引,提取 需要去相关的特征变量,并将所述特征变量输入所述去偏差层和所述输出层;
所述去偏差层,基于所述特征变量确定所述样本图数据对应的样本权重, 并将所述样本权重输入所述输出层;
所述输出层,基于所述特征变量和所述样本权重确定第一损失函数,并 基于第一损失函数判断待训练去偏差图神经网络是否收敛;
如果收敛,确定待训练去偏差图神经网络为目标去偏差图神经网络;
如果未收敛,反复迭代直至收敛。
进一步的,所述去偏差层为正则化器;
所述基于所述特征变量确定所述样本图数据对应的样本权重,包括:
将所述特征变量输入正则化器,得到预测样本权重;
基于预测样本权重确定正则化器对应的第二损失函数;
判断所述第二损失函数是否收敛;
如果收敛,确定预测样本权重为所述样本图数据对应的样本权重;
如果未收敛,继续优化所述第二损失函数,直至收敛。
进一步的,所述基于预测样本权重确定正则化器对应的第二损失函数, 包括:
采用如下公式,基于预测样本权重确定正则化器对应的第二损失函数:
Figure BDA0003252639320000031
其中,
Figure BDA0003252639320000032
为第二损失函数,
Figure BDA0003252639320000033
为最小第二损失函数, abs()表示逐元素的绝对值运算,w为预测样本权重,wi是第i个样本权重, H为特征变量,H·j为第j个特征值,H·-j为除第j个特征值以外的其他特征值, T为矩阵转置运算符号,p为H的特征值的数量,α为特征权重,n为样本数, λ1和λ2均为可调节超参数。
进一步的,所述基于所述特征变量和所述样本权重确定第一损失函数, 包括:
采用如下公式,基于所述特征变量和所述样本权重确定第一损失函数:
Figure BDA0003252639320000034
其中,
Figure BDA0003252639320000035
为第一损失函数,
Figure BDA0003252639320000036
为最小第一损失函数,θ为所述特征变 量提取层和所述输出层的参数的集合,
Figure BDA0003252639320000037
是标记节点索引的集合,wl为第l个 样本权重,
Figure BDA0003252639320000038
为第l个样本的特征变量,Yl为第l个样本标签索引,q(·)是softmax函数。
进一步的,所述基于第一损失函数判断待训练去偏差图神经网络是否收 敛,包括:
判断第一损失函数的函数值是否小于预设函数阈值;
如果是,确定待训练去偏差图神经网络收敛;
如果否,确定待训练去偏差图神经网络未收敛。
进一步的,在所述基于第一损失函数判断待训练去偏差图神经网络是否 收敛之前,还包括:
将验证图数据输入待训练去偏差图神经网络,得到验证图数据各个节点 的预测标签;
基于验证图数据各个节点的预测标签与验证图数据各个节点的真实标签, 确定验证图数据对应的预测正确率;
所述基于第一损失函数判断待训练去偏差图神经网络是否收敛,包括:
若第一损失函数的函数值小于预设函数阈值,且两次迭代的预测正确率 之间的差值小于等于预设正确率差值阈值,确定待训练去偏差图神经网络收 敛;否则,确定待训练去偏差图神经网络未收敛。
进一步的,在所述将样本图数据及其对应的样本标签索引输入待训练去 偏差图神经网络之前,还包括:
确定初始迭代次数为0;
所述如果未收敛,获取训练样本图数据和样本标签,返回所述将样本图 数据和样本标签索引输入待训练去偏差图神经网络的步骤,包括:
如果未收敛,确定迭代次数加一,返回所述将样本图数据和样本标签索 引输入待训练去偏差图神经网络的步骤,继续更新参数;直至迭代次数达到 预设迭代次数,确定待训练去偏差图神经网络为目标去偏差图神经网络。
为了达到上述目的,本发明实施例还提供了一种去偏差图神经网络的训 练装置,包括:
输入模块,用于将样本图数据及其对应的样本标签索引输入待训练去偏 差图神经网络;其中,所述样本图数据包括:多个节点、每个节点的节点特 征和部分节点的预设节点标签;所述样本标签索引为所述样本图数据中部分 节点的预设节点标签的索引;待训练去偏差图神经网络包括:特征变量提取 层、去偏差层和输出层;
特征提取模块,用于所述特征变量提取层,基于所述样本图数据和所述 样本标签索引,提取需要去相关的特征变量,并将所述特征变量输入所述去 偏差层和所述输出层;
去偏差模块,用于所述去偏差层,基于所述特征变量确定所述样本图数 据对应的样本权重,并将所述样本权重输入所述输出层;
输出模块,用于所述输出层,基于所述特征变量和所述样本权重确定第 一损失函数,并基于第一损失函数判断待训练去偏差图神经网络是否收敛; 如果收敛,确定待训练去偏差图神经网络为目标去偏差图神经网络;如果未 收敛,反复迭代直至收敛。
进一步的,所述去偏差层为正则化器;
所述去偏差模块,具体用于将所述特征变量输入正则化器,得到预测样 本权重;基于预测样本权重确定正则化器对应的第二损失函数;判断所述第 二损失函数是否收敛;如果收敛,确定预测样本权重为所述样本图数据对应 的样本权重;如果未收敛,继续优化所述第二损失函数,直至收敛。
为了达到上述目的,本发明实施例还提供了一种电子设备,包括处理器、 通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信 总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述去偏差 图神经网络的训练方法步骤。
为了达到上述目的,本发明实施例还提供了一种计算机可读存储介质, 所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执 行时实现上述任一所述的去偏差图神经网络的训练方法步骤。
为了达到上述目的,本发明实施例还提供了一种包含指令的计算机程序 产品,当其在计算机上运行时,使得计算机执行上述任一所述的去偏差图神 经网络的训练方法步骤。
本发明实施例有益效果:
采用本发明实施例提供的方法,将样本图数据及其对应的样本标签索引 输入待训练去偏差图神经网络;特征变量提取层基于样本图数据和所述样本 标签索引,提取需要去相关的特征变量,并将特征变量输入所述去偏差层和 输出层;去偏差层基于特征变量确定样本图数据对应的样本权重,并将样本 权重输入输出层;输出层,基于特征变量和样本权重确定第一损失函数,并 基于第一损失函数判断待训练去偏差图神经网络是否收敛;如果收敛,确定 待训练去偏差图神经网络为目标去偏差图神经网络;如果未收敛,反复迭代直至收敛。本发明实施例训练的目标去偏差图神经网络的去偏差层可以减小 甚至消除训练节点的偏差,使得利用目标去偏差图神经网络预测图数据的节 点标签时,能够解决由训练节点的偏差导致的预测节点标签效果差的问题, 因此,本发明实施例训练的目标去偏差图神经网络提高了预测测试图数据的 测试节点标签的准确性,即提高了去偏差图神经网络泛化到测试节点上的效 果。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的 所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为数据选择偏差在GNN模型上的影响示意图;
图2为本发明实施例提供的去偏差图神经网络的训练方法的一种流程图;
图3为发明实施例提供的去偏差神经网络的一种框架示意图;
图4为本发明实施例提供的去偏差图神经网络的训练装置的一种结构图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不 是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请 所获得的所有其他实施例,都属于本发明保护的范围。
发明人发现现有的GNN网络在预测图数据的节点标签时并未考虑图数据 的选择偏差,即现有的GNN存在训练集和测试集之间的数据分布不一致的问 题。同时,在利用训练集的数据训练GNN网络过程中通常也无法获得测试集 的测试数据,这也使得选择偏差变得不可知。发明人进一步研究发现,如果 用有偏差图数据训练GNN网络会导致比较明显的参数估计偏差,这会极大程 度影响GNN网络泛化到测试节点上的效果,使GNN网络预测测试集中测试 节点标签的效果变差。其中,GNN和GCN(Graph convolutional networks, 图卷积神经网络)效果类似,存在的问题也类似。
为了观察真实图数据中的选择偏差,发明人进行了验证实验,验证选择 偏差对GNN网络的影响。具体的,发明人选择了偏差程度不同的图数据训练 节点,且所选择的训练节点和测试节点分布不一致。实验的具体过程及实验 结果如下:
首先,可以给定训练图数据
Figure BDA0003252639320000071
其中
Figure BDA0003252639320000072
(N个训练节点)表示N个训练节点的邻接矩阵,
Figure BDA0003252639320000073
(D维特征)表示训练节点特征,
Figure BDA0003252639320000074
(n个测试节点,C个类型) 表示可用于训练的训练节点标签(n<N)。
实验任务:学习一个GNNgθ(·),其参数是θ,用于预测测试图数据
Figure BDA0003252639320000075
中测试节点的标签,Atest表示测试节点的邻接矩阵,Xtest表示测试节点特征,Ytest表示测试节点标签。其中,训练图数据和测试 图数据的分布不一致:
Figure BDA0003252639320000076
实验过程:在三个广泛使用的具有不同程度偏差的图数据集Cora、Citeseer和Pubmed上运行两个有代表性的GNN网络:GCN(Graph convolutional networks,图卷积神经网络)和GAT(Graph attention networks, 图注意力网络)。具体的,为了模拟不可知的选择偏差情况,可以首先在训练 过程中掩盖训练图数据中的测试节点和测试节点,然后在测试阶段使用整个 图数据进行测试。发明人还设计了一种有偏差的标签选择方法,引入选择变 量e控制是否将节点选择为标记节点,其中e=1表示已选择,否则为0。对于 节点i,可以计算其邻近节点的分布比率:
Figure BDA0003252639320000077
其中
Figure BDA0003252639320000081
Figure BDA0003252639320000082
中节点i的邻域,而yj≠yi表示中心节点i的标签不是其邻域的标签 节点j。ri度量中心节点i的标签与其附近的标签之间的差。然后,可以平均 所有节点的r以获得阈值t。对于每个节点,其被选择的概率为:
Figure BDA0003252639320000083
Figure BDA0003252639320000084
其中ei表示第i个样本是否被选择,∈∈(0.5,1)为偏差 度,∈用于控制选择偏差的程度,较大的∈表示选择偏差较大。可以在实验过 程中将∈设置为{0.7,0.8,0.9},以使每个数据集获得三个偏差度,分别称为{Light,Medium,Heavy}。可以在每个类选择20个节点进行训练。此外,我 们以unbiased(无偏差)数据集为基准,其中标记节点是随机选择的。
实验结果:图1为数据选择偏差在GNN模型上的影响示意图。图1中 (a)展示了GCN和GAT运行在图数据集Cora中时,在四种偏差度 “unbiased(偏差度为0)、Light(低偏差度)、Medium(中偏差度)、Heavy (高偏差度)”的情况下,泛化到测试节点上的性能效果;图1中(b)展示 了GCN和GAT运行在图数据集Citeseer中时,在四种偏差度“unbiased、 Light、Medium、Heavy”的情况下,泛化到测试节点上的性能效果;图1中 (c)展示了GCN和GAT运行在图数据集Pubmed中时,在四种偏差度 “unbiased、Light、Medium、Heavy”的情况下,泛化到测试节点上的性能 效果。其中,偏差度Light通常取值为0.7,偏差度Medium通常取值为0.8, 偏差度Heavy通常取值为0.9。
如图1所示,可以发现,第一点、和无偏差的情况相比,当GCN/GAT运 行在有偏差度的数据上时,性能下降很多,这表示选择偏差将会极大的影响 GNN的性能;第二点、GCN/GAT运行在图数据集Cora、Citeseer和Pubmed中任一个时,GCN/GAT性能都随偏差度的增加而单调减小,这表明较大的选 择偏差将导致GCN/GAT的性能下降。
实验表明:选择偏极大地阻碍了GNN在不可知测试节点上的性能,而且, 随着偏差的增加,性能会下降更多。
针对上述实验所发现的参数估计偏差问题会极大地影响所训练的GNN网 络泛化到测试节点上的效果的问题,本发明实施例提供了一种去偏差图神经 网络的训练方法、装置和电子设备,以提高所训练的去偏差图神经网络泛化 到测试节点上的效果。下面将结合附图对本发明实施例所提供的去偏差图神 经网络的训练方法进行详细描述。
图2为本发明实施例提供的去偏差图神经网络的训练方法的一种流程图, 如图2所示,该方法包括:
步骤201,将样本图数据及其对应的样本标签索引输入待训练去偏差图神 经网络。
其中,样本图数据包括:多个节点、每个节点的节点特征和部分节点的 预设节点标签;样本标签索引为样本图数据中部分节点的预设节点标签的索 引;待训练去偏差图神经网络包括:特征变量提取层、去偏差层和输出层。
步骤202,特征变量提取层,基于样本图数据和样本标签索引,提取需要 去相关的特征变量,并将特征变量输入去偏差层和输出层。
步骤203,去偏差层,基于特征变量确定样本图数据对应的样本权重,并 将样本权重输入输出层。
步骤204,输出层,基于特征变量和样本权重确定第一损失函数,并基于 第一损失函数判断待训练去偏差图神经网络是否收敛。
步骤205,如果收敛,确定待训练去偏差图神经网络为目标去偏差图神经 网络。
步骤206,如果未收敛,反复迭代直至收敛。
采用本发明实施例提供的方法,将样本图数据及其对应的样本标签索引 输入待训练去偏差图神经网络;特征变量提取层基于样本图数据和所述样本 标签索引,提取需要去相关的特征变量,并将特征变量输入所述去偏差层和 输出层;去偏差层基于特征变量确定样本图数据对应的样本权重,并将样本 权重输入输出层;输出层,基于特征变量和样本权重确定第一损失函数,并 基于第一损失函数判断待训练去偏差图神经网络是否收敛;如果收敛,确定 待训练去偏差图神经网络为目标去偏差图神经网络;如果未收敛,反复迭代直至收敛。本发明实施例训练的目标去偏差图神经网络的去偏差层可以减小 甚至消除训练节点的偏差,使得利用目标去偏差图神经网络预测图数据的节 点标签时,能够解决由训练节点的偏差导致的预测节点标签效果差的问题, 因此,本发明实施例训练的目标去偏差图神经网络提高了预测测试图数据的 测试节点标签的准确性,即提高了去偏差图神经网络泛化到测试节点上的效 果。
在一种可能的实施方式中,待训练去偏差图神经网络的去偏差层为正则 化器。上述步骤203中所述去偏差层,基于所述特征变量确定所述样本图数 据对应的样本权重具体可以包括如下步骤A1-A5:
步骤A1:将所述特征变量输入正则化器,得到预测样本权重;
步骤A2:基于预测样本权重确定正则化器对应的第二损失函数;
步骤A3:判断所述第二损失函数是否收敛;
步骤A4:如果收敛,确定预测样本权重为所述样本图数据对应的样本权 重;
步骤A5:如果未收敛,继续优化所述第二损失函数,直至收敛。
其中,具体采用如下公式,基于预测样本权重确定正则化器对应的第二 损失函数:
Figure BDA0003252639320000101
其中,
Figure BDA0003252639320000102
为第二损失函数,
Figure BDA0003252639320000103
为最小第二损失函数, abs()表示逐元素的绝对值运算,w为预测样本权重,wi是第i个样本权重, H为特征变量,H·j为第j个特征值,H·-j为除第j个特征值以外的其他特征值, T为矩阵转置运算符号,p为H的特征值的数量,α为特征权重,n为样本数, λ1和λ2均为可调节超参数。
在另一种可能的实施方式中,上述步骤204中具体可以采用如下公式, 基于特征变量和所述样本权重确定第一损失函数:
Figure BDA0003252639320000111
其中,
Figure BDA0003252639320000112
为第一损失函数,
Figure BDA0003252639320000113
为最小第一损失函数,θ为所述特征变 量提取层和所述输出层的参数的集合,
Figure BDA0003252639320000114
是标记节点索引的集合,wl为第l个 样本权重,
Figure BDA0003252639320000115
为第l个样本的特征变量,Yl为第l个样本标签索引,q(·)是 softmax函数。
在一种可能的实施方式中,上述步骤204中所述去偏差层,基于第一损 失函数判断待训练去偏差图神经网络是否收敛,具体可以包括如下步骤B1- B5:
步骤B1:判断第一损失函数的函数值是否小于预设函数阈值;
步骤B2:如果是,确定待训练去偏差图神经网络收敛;
步骤B3:如果否,确定待训练去偏差图神经网络未收敛。
其中,预设函数阈值可以根据具体应用情况进行设定,此处不做具体限 定。
在另一种可能的实施方式中,在执行上述步骤201中将样本图数据及其对 应的样本标签索引输入待训练去偏差图神经网络的步骤之前,还可以先确定 初始迭代次数为0;在此基础上,上述步骤204中如果未收敛,获取训练样本 图数据和样本标签,返回所述将样本图数据和样本标签索引输入待训练去偏 差图神经网络的步骤具体可以包括:如果未收敛,确定迭代次数加一,并获 取训练样本图数据和样本标签,返回所述将样本图数据和样本标签索引输入 待训练去偏差图神经网络的步骤,继续更新参数;直至迭代次数达到预设迭 代次数,确定待训练去偏差图神经网络为目标去偏差图神经网络。其中,预 设迭代次数可以根据实际应用情况设定为5000或10000等。
在一种可能的实施方式中,在基于第一损失函数判断待训练去偏差图神 经网络是否收敛之前,还可以将验证图数据输入待训练去偏差图神经网络, 得到验证图数据各个节点的预测标签;基于验证图数据各个节点的预测标签 与验证图数据各个节点的真实标签,确定验证图数据对应的预测正确率;则 基于第一损失函数判断待训练去偏差图神经网络是否收敛,可以包括:若第 一损失函数的函数值小于预设函数阈值,且两次迭代的预测正确率之间的差 值小于等于预设正确率差值阈值,确定待训练去偏差图神经网络收敛;否则, 确定待训练去偏差图神经网络未收敛。
采用本发明实施例提供的方法,通过目标去偏差图神经网络的去偏差层 可以减小甚至消除训练节点的偏差,使得利用目标去偏差图神经网络预测图 数据的节点标签时,能够解决由训练节点的偏差导致的预测节点标签效果差 的问题,因此,本发明实施例训练的目标去偏差图神经网络提高了预测测试 图数据的测试节点标签的准确性,即提高了去偏差图神经网络泛化到测试节 点上的效果。
本发明实施例提出了一种新颖的去偏差图神经网络DGNN(DebiasedGraph NeuralNetworks,去偏差图神经网络)框架,通过联合优化差分解相关 正则化器和加权GNN实现稳定的图数据学习。本发明实施例中,从理论上分 析了选择偏差对估计GNN中参数的影响。首先,因为有偏差的标签节点具有 偏向的邻域结构,所以GNN将对该偏向的信息进行编码嵌入节点。基于稳定 的学习技术,本发明实施例做出以下两点假设:
假设1:GNN为图数据的每个节点嵌入的所有变量都可以分解为 H={S,V},其中S表示稳定变量,V表示不稳定变量。
在GNN学习到的所有变量中,稳定变量S具有对GNN网络的学习结果 的因果效应,即S在训练节点和测试节点之间是不变的;不稳定变量V编码 有偏差的信息,不稳定变量V对GNN网络的学习结果Y没有因果效应,但 是不稳定变量V可能与稳定变量S、GNN网络的学习结果Y这两者之间相关。 假设1表明存在稳定变量S,可以利用该稳定变量S进行稳定的节点标签预 测,即在未知测试节点上实现精确的节点标签预测。
将Y作为连续变量进行分析,并具有以下假设2:Y的生成过程不仅包 含稳定变量S的线性组合,还包含稳定变量S的非线性变换。
基于以上假设,可以将标签生成过程形式化如下:
Figure BDA0003252639320000131
其中X表示图数据的特征矩阵,A表示图数据的邻接矩阵,f(X,A)为X 和A到Y的映射关系,
Figure BDA0003252639320000132
表示X和A用于学习节点嵌入的未知 函数,并且可以由GNN(例如GCN和GAT)来学习,
Figure BDA0003252639320000133
可以分解 为稳定变量
Figure BDA0003252639320000134
和非稳定变量
Figure BDA0003252639320000135
p是节点嵌入的总维度,m是稳定变量维度,q是非稳定变量维度,βS和βV是 可以由GNN学习的线性系数,ε是独立的随机噪声,g(·)是稳定变量的非线性 变换函数。根据假设1,可以知道不稳定变量
Figure BDA0003252639320000136
的系数实际上为0 (即βV=0)。
对于具有线性回归器的经典GNN网络,其预测函数可以表示为:
Figure BDA0003252639320000137
与公式1相比,如果非线性项
Figure BDA0003252639320000138
则可以无偏差估计 GNN的参数,因为GNN网络将具有与公式1相同的节点标签生成机制。然 而,受GNN的非线性能力影响,可以假设存在一个非线性项
Figure BDA0003252639320000139
使得GNN无法拟合。因此,稳定变量和不稳定变量的参 数都会有偏差。以GCN为例,可以表示为
Figure BDA00032526393200001310
其中
Figure BDA00032526393200001311
是标准化 的邻接矩阵,W是每层的变换矩阵,σ(·)是Relu激活函数,
Figure BDA00032526393200001312
是第一 层图神经网络的输出。可以将GCN分解为两个部分:嵌入学习部分
Figure BDA00032526393200001313
和W(1)部分。其中,嵌入学习部分
Figure BDA00032526393200001314
可以分解为[ST,VT]。W(1)部分学习的参数可以分解为
Figure BDA0003252639320000141
其中,
Figure BDA0003252639320000142
表示稳定特征的 线性系数,
Figure BDA0003252639320000143
表示非稳定特征的线性系数,对应于公式(2)中的
Figure BDA0003252639320000144
其中,
Figure BDA0003252639320000145
表示稳定特征的线性系数,
Figure BDA0003252639320000146
表示非稳定特征的线性系数。目标是最小化 平方损失:
Figure BDA0003252639320000147
其中Vi是V的第i个样本,Si是S的第i个样本,Yi是第i个样本的标签。根据分块回归模型的推导规则, 可以得到:
Figure BDA0003252639320000148
Figure BDA0003252639320000149
其中,n标签节点个数大小,T为矩阵转置运算符号,S是稳定特征,V 是非稳定特征,Vi是V的第i个样本,Si是S的第i个样本,
Figure BDA00032526393200001410
op(1) 是可以忽略的误差。在理想情况下,
Figure BDA00032526393200001411
表示估计参数与实际参数之 间没有偏差。但是,如果公式3中的
Figure BDA00032526393200001412
Figure BDA00032526393200001413
Figure BDA00032526393200001414
将有偏 差,导致公式4中的
Figure BDA00032526393200001415
也会有偏差。由于V和S(或g(S))之间的相关性在网 络测试阶段可能会发生变化,因此训练集中学习的有偏差的参数并不是用于 预测测试节点标签的最佳参数。因此,为了提高预测的稳定性,需要通过消 除V和S(或g(S))之间的相关性,以无偏差估计
Figure BDA00032526393200001416
的参数训练图数据,使得
Figure BDA00032526393200001417
Figure BDA00032526393200001418
本发明实施例去通过对
Figure BDA0003252639320000151
的输出进行去相关,实现对V和S(或 g(S))进行解相关。具体的,本发明实施例提供了带有样本重加权技术的变 量解相关(VariableDecorrelation,VD)项,以消除每个特征变量对之间的相 关性,通过共同最小化每个变量对之间的矩差异来学习样本权重:
Figure BDA0003252639320000152
其中
Figure BDA0003252639320000153
表示需要去相关的变量,T为矩阵转置运算符号,Hj是第H 的第j个变量,H-j=H\Hj表示通过设置H中第j个特征为0后剩余的所有变 量,p是H的变量的数量,n是样本个数,
Figure BDA0003252639320000154
是样本权重,
Figure BDA0003252639320000155
Λw=diag(w1,…,wn)是对应的对角矩阵。基于此,
Figure BDA0003252639320000156
可以重新表示为
Figure BDA0003252639320000157
Figure BDA0003252639320000158
是用于对每个变 量对i和j让
Figure BDA0003252639320000159
Figure BDA00032526393200001510
等价地解相关所有变量对。但 是,将所有变量解相关需要足够的样本n→∞,这很难满足,尤其是在半监 督环境中。在此基础上,本发明实施例通过混淆的平衡技术实现了因果效应 的无偏差估计。混淆的平衡技术通常用于估算治疗T的因果效应,其中治疗 组(T=1)和对照组(T=0)的混杂因素X不同,因为非随机治疗分配。可 以在平衡治疗组和对照组之间混合混杂因素的分布来实现因果效应的无偏差 估计。通常的平衡方法都是利用矩来表征分布,并通过如下调整样本权重w 来平衡它们:
Figure BDA00032526393200001511
其中Ti表示第i个 样本是否属于治疗组,Xi表示第i个样本的混杂因子,wi为第i个样本的权重。 平衡后,治疗T和混杂因素X往往是独立的。
通过给定目标变量j,在目标变量仅具有线性关系假设下,目标变量的 去相关项
Figure RE-GDA0003457902360000161
与混淆平衡项使治疗和 混杂因素独立的相同,是使
Figure RE-GDA0003457902360000162
独立于H-j。因此,
Figure RE-GDA0003457902360000163
也可以看作是一个混淆 变量的平衡项。因此,本发明实施例的目标可以解释为无偏差估计每个特征 变量的因果效应,这个因果效应在训练集和测试集上不改变。由于不同的特 征变量可能对混杂的偏差造成不平等的影响,因此有必要区分混杂因素。区 分混杂因素消除了对无偏差估计影响最大的变量相关性。
以下实施例提供了差分变量去相关的内容:
本发明实施例,可以通过边际治疗效果函数(MTEF)来衡量治疗的因果 关系,并定义为:
Figure BDA0003252639320000164
Yi(t)代表样本i的治疗状态为 T=t的潜在输出,其中t表示是否接受治疗,
Figure BDA0003252639320000165
表示期望函数,而Δt表示治 疗水平的差距。通过样本权重w去除治疗和混杂因素的相关性,具体可以通 过以下方式估算MTEF:
Figure BDA0003252639320000166
其中,
Figure BDA0003252639320000167
表示边际治疗效果函数的估计值,Tj为第j个样本的治疗状 态,wj为第j个样本的权值,Yj(t)代表样本j的治疗状态为T=t的潜在输出。
本发明实施例可以基于以下理论分析区分混杂因素的权重的方法:
理论1:不同的混杂因素使用不同的权重对边际治疗效果函数(MTEF) 造成不平等的混淆偏差,并且权重可以通过对混杂因素X和治疗变量T的结 果Y的回归学得。
可以通过以下的假设3证明上述定理1:
假设3:结果Y对观察变量X和处理变量T的回归是线性的,即 Y=∑k≠tαkX.ktT+c+ε,其中αk∈α是线性系数,c是偏置参数,ε是噪 声参数。
在假设3下,可以确定MTEF的估计量
Figure BDA0003252639320000171
为:
Figure BDA0003252639320000172
其中MTEF是实际值,Xik表示第i个样本第k个特征的值,Xjk表示第j 个样本第k个特征的值,φ(ε)表示噪声项。为了减少
Figure BDA0003252639320000173
的偏差,需要对项
Figure BDA0003252639320000174
其中
Figure BDA0003252639320000175
表示治疗样本与对照样本之间第k个混杂因子的差。参数αk表示第k个混杂器的混杂 偏差权重,是Xk的系数。此外,在治疗和每个混杂因素之间需要学习治疗权 重αt,即T的系数。因此,在线性假设下混杂因素的权重和治疗权重可以从 对混杂因素X和治疗T的结果Y的回归系数中学到。
对于GNN,变量权重α可以从嵌入H的回归系数中计算出,因此α等于在 公式2中的
Figure BDA0003252639320000176
可以应用变量权重α来区分DVD(Differetiated Variable Decorrelation,DVD,差分变量解相关)项中的变量权重,如下式所示:
Figure BDA0003252639320000181
其中,abs()表示逐元素的绝对值运算,防止消除正负值。添加
Figure BDA0003252639320000182
以减少样本权重的方差以获得稳定性,
Figure BDA0003252639320000183
避免所有 样本权重均为0。项w≥0将每个样本的重量限制为非负数。变量重新加权后, 加权等式中的去相关项可以重写为
Figure BDA0003252639320000185
Figure BDA0003252639320000186
变量对j和k的权重为
Figure BDA0003252639320000187
因此,同时考虑了治疗和混杂因素 权重。
本发明实施例提供的去偏差图神经网络的框架以无缝方式将DVD/VD正 则化器与GNN结合在一起,将
Figure BDA0003252639320000188
解相关可以使GNN稳定。但是, 大多数GNN遵循逐层堆叠的结构,实现时更容易获得每一层的输出嵌入。由 于
Figure BDA0003252639320000189
是的第一层嵌入
Figure BDA00032526393200001810
的聚合,将这些变量解相关可能缺 乏将DVD/VD项与其他GNN结构结合的灵活性。通过运用以下定理2,使 得将变量去相关与GNN结合得更灵活。
定理2。给定p个两两不相关变量Z=(Z1,Z2,…,Zp),和线性聚合运算符
Figure BDA00032526393200001811
的变量仍然是成对不相关的。
定理表明,如果嵌入变量Z不相关,则在任何形式的线性邻域聚集
Figure BDA00032526393200001812
之后, 例如平均值或求和,嵌入Y也将不相关。因此,解相关
Figure BDA00032526393200001813
也可以减少 估计偏差。对于GNN的K层,可以直接对第(K-1)层的输出进行解相关, 即
Figure BDA00032526393200001814
对于K层的GCN。
本发明实施例中,还可以将softmax层用作GNN的输出层,而损失函数 为交叉熵误差函数。根据Newton-Raphson(牛顿-拉裴森)更新规则,可以得 出GNN最后一层的变换矩阵W(K-1)的更新公式为:
Figure BDA0003252639320000191
其中,
Figure BDA0003252639320000192
是W(K-1)的更新公式,
Figure BDA0003252639320000193
是W(K-1)上一轮的权值,R是 一个加权矩阵,H是特征矩阵,T是矩阵转置运算符号,
Figure BDA0003252639320000194
表示R元素的值,N是样本数,n是样 本序号,Hn是第n个样本的特征值,Yj是第j个样本的标签,Ikj是单位矩阵的 元素,而
Figure BDA0003252639320000195
是有效目标值。公式(9)采取一组加 权最小二乘问题的正规方程。由于加权矩阵R不是常数,而是取决于参数向量
Figure BDA0003252639320000196
因此在使用中必须迭代地应用正规方程。每次迭代都使用最后一次迭 代的权重向量
Figure BDA0003252639320000197
来计算修正后的加权矩阵R并使用
Figure BDA0003252639320000198
回归目标值z。 因此,变量解相关也可以通过softmax分类器应用于GNN,以减少每次迭代 中的估计偏差。值得注意的是,根据公式(9)需要在每轮迭代计算逆矩阵 (HTRH)-1,其需要很大的计算量。实际上,本发明实施例可以使用梯度下降 方法来近似公式(9),并且本发明实施例通过实验,使用梯度下降方法也取得 了良好的效果。
图3为发明实施例提供的去偏差神经网络的一种框架示意图。如图3所 示,可以将多个输入图数据310进行聚合,得到多个特征变量H(1)-H(K-1),将 第K层的H(K-1)进行线性变换,得到第K层的变换矩阵W(K-1)。图3中可以将 标记节点的嵌入
Figure BDA0003252639320000201
输入到正则化器
Figure BDA0003252639320000202
即DVD项中,并且, 将基于线性变换得到的方差α作为特征权重也输入到DVD项中,基于α对
Figure BDA0003252639320000203
进行处理,得到样本权重w,其中,
Figure BDA0003252639320000204
Figure BDA0003252639320000205
第p个特征值,
Figure BDA0003252639320000206
Figure BDA0003252639320000207
除第p个特征值以外的其他特 征值。然后将得到的样本权重w用于对
Figure BDA0003252639320000208
的输出
Figure BDA0003252639320000209
进行重加权, 并结合标签Y计算损失。由于GNN的公式为
Figure BDA00032526393200002010
因此, 用于区分
Figure BDA00032526393200002011
可以的特征权重可以从Var(W(K-1),axis=1)中计算,其 中Var(,axis=1)是指计算某个矩阵的每一行的方差,它反映了每个变量的对 于分类任务的权重,与回归系数相似(在将VD项与GNN合并时,不需要计 算变量权重)。然后DVD项学习的样本权重w具有移除
Figure BDA00032526393200002012
中的相关性的 能力。本发明实施例可以使用以下样本权重来重新加权softmax损失:
Figure BDA00032526393200002013
其中q(·)是softmax函数,
Figure BDA00032526393200002014
是标记节点索引的集合,而θ是GCN的参数 的集合。
以下,利用两种选择偏差数据(即标签选择偏向和小样本选择偏向)验 证本发明实施例训练的去偏差神经网络在预测节点标签上的有效性:
对于标签选择偏差,本实施例使用了三个广泛使用的图数据集:Cora, Citeseer和Pubmed。并为每个图数据进行归纳设置,为每个图数据获取三个 偏差度。对于较小的样本选择偏差,可以在NELL数据集上进行实验,每个 类只有一个标记的节点用于训练。由于该数据集的规模较大,因此测试节点 很容易从训练节点发生分布偏移。
基线方法:本发明实施例训练的去偏差神经网络,将VD/DVD项与 GCN和GAT合并,称为GCN-VD/DVD和GAT-VD/DVD,因此GCN和 GAT为两个基本的对比方法。可以将与GNM-GCN/GAT(Graph-based joint model with Nonignorable Missingness,具有不可忽略偏差的基于图的联合模 型)进行比较,后者考虑了直推设置中的标签选择偏差。此外,还包括一些GNN:Chebyshev过滤器,SGC和APPNP(Approximate personalized propagation of neuralpredictions,神经预测的近似个性化传播)。本实施例将 在标记节点上训练的Planetoid和MLP进行了比较。
实验结果如表1所示,通过表1中可以发现:
第一点、在大多数情况下,去偏差神经网络都可以达到最佳性能,这充 分证明了本发明实施例所训练的去偏差神经网络有效性。
第二点、与基本模型相比,本发明实施例所训练的去偏差神经网络均达 到了17.0%的性能改善,并在偏差更大的情况下获得更大的提升。由于本发 明实施例所训练的去偏差神经网络与基本模型之间的主要区别是VD/DVD 正则化项,因此可以将性能改善归结为有效的去相关项及其与GNN模型的无 缝结合。而且,在大多数情况下,GCN/GAT-DVD可获得比GCN/GAT- VD更好的效果,它验证了在半监督环境下区分变量权重的重要性和有效性。
表1:在三个引用数据集上的实验结果
Figure BDA0003252639320000211
Figure BDA0003252639320000221
小样本选择偏差数据集的实验结果如表2所示:
表2:在NELL数据集上的实验结果
Figure BDA0003252639320000222
由于NELL是一个大规模图数据集,因此无法在具有16GB内存的单个 GPU上运行GAT。本实验仅执行GCN-VD/DVD,并与可以在此数据集上执 行的代表性方法进行比较。如表2的实验结果所示:第一点、GCN-VD/ DVD比GCN有了明显的提升,这表明选择偏差可能是由少量标记节点引起 的,本发明实施例所训练的去偏差神经网络可以减轻估计偏差,并且GCN- DVD极大改善了GCN-VD。
本发明实施例中,通过在不可知选择偏差下学习神经网络,选择偏差将 不可避免地使GNN学习聚合模式和类别标签之间的偏差相关性,并使预测变 得不稳定。然而,本发明实施例训练去偏差神经网络,将去偏技术与GNN结 合在一个统一的网络框架中,极大程度上提高了所训练的去偏差图神经网络 泛化到测试节点上的效果,以及提高了去偏差图神经网络泛化的有效性和灵 活性。
基于同一发明构思,根据本发明上述实施例提供的去偏差图神经网络的 训练方法,相应地,本发明另一实施例还提供了一种去偏差图神经网络的训 练装置,应用于电子设备,其结构示意图如图4所示,具体包括:
输入模块401,用于将样本图数据及其对应的样本标签索引输入待训练去 偏差图神经网络;其中,所述样本图数据包括:多个节点、每个节点的节点 特征和部分节点的预设节点标签;所述样本标签索引为所述样本图数据中部 分节点的预设节点标签的索引;待训练去偏差图神经网络包括:特征变量提 取层、去偏差层和输出层;
特征提取模块402,用于所述特征变量提取层,基于所述样本图数据和所 述样本标签索引,提取需要去相关的特征变量,并将所述特征变量输入所述 去偏差层和所述输出层;
去偏差模块403,用于所述去偏差层,基于所述特征变量确定所述样本图 数据对应的样本权重,并将所述样本权重输入所述输出层;
输出模块404,用于所述输出层,基于所述特征变量和所述样本权重确定 第一损失函数,并基于第一损失函数判断待训练去偏差图神经网络是否收敛; 如果收敛,确定待训练去偏差图神经网络为目标去偏差图神经网络;如果未 收敛,反复迭代直至收敛。
采用本发明实施例提供的装置,将样本图数据及其对应的样本标签索引 输入待训练去偏差图神经网络;特征变量提取层基于样本图数据和所述样本 标签索引,提取需要去相关的特征变量,并将特征变量输入所述去偏差层和 输出层;去偏差层基于特征变量确定样本图数据对应的样本权重,并将样本 权重输入输出层;输出层,基于特征变量和样本权重确定第一损失函数,并 基于第一损失函数判断待训练去偏差图神经网络是否收敛;如果收敛,确定 待训练去偏差图神经网络为目标去偏差图神经网络;如果未收敛,反复迭代直至收敛。本发明实施例训练的目标去偏差图神经网络的去偏差层可以减小 甚至消除训练节点的偏差,使得利用目标去偏差图神经网络预测图数据的节 点标签时,能够解决由训练节点的偏差导致的预测节点标签效果差的问题, 因此,本发明实施例训练的目标去偏差图神经网络提高了预测测试图数据的 测试节点标签的准确性,即提高了去偏差图神经网络泛化到测试节点上的效 果。
进一步的,所述去偏差层为正则化器;
所述去偏差模块403,具体用于将所述特征变量输入正则化器,得到预测 样本权重;基于预测样本权重确定正则化器对应的第二损失函数;判断所述 第二损失函数是否收敛;如果收敛,确定预测样本权重为所述样本图数据对 应的样本权重;如果未收敛,继续优化所述第二损失函数,直至收敛。
进一步的,所述去偏差模块403,具体用于采用如下公式,基于预测样本 权重确定正则化器对应的第二损失函数:
Figure BDA0003252639320000241
其中,
Figure BDA0003252639320000242
为第二损失函数,
Figure BDA0003252639320000243
为最小第二损失函数, abs()表示逐元素的绝对值运算,w为预测样本权重,wi是第i个样本权重, H为特征变量,H·j为第j个特征值,H·-j为除第j个特征值以外的其他特征值, T为矩阵转置运算符号,p为H的特征值的数量,α为特征权重,n为样本数, λ1和λ2均为可调节超参数。
进一步的,所述输出模块404,具体用于采用如下公式,基于所述特征变 量和所述样本权重确定第一损失函数:
Figure BDA0003252639320000244
其中,
Figure BDA0003252639320000245
为第一损失函数,
Figure BDA0003252639320000246
为最小第一损失函数,θ为所述特征变 量提取层和所述输出层的参数的集合,
Figure BDA0003252639320000247
是标记节点索引的集合,wl为第l个 样本权重,
Figure BDA0003252639320000248
为第l个样本的特征变量,Yl为第l个样本标签索引,q(·)是 softmax函数。
进一步的,所述输出模块404,具体用于判断第一损失函数的函数值是否 小于预设函数阈值;如果是,确定待训练去偏差图神经网络收敛;如果否, 确定待训练去偏差图神经网络未收敛。
进一步的,所述装置还包括验证模块(图中为标出);
所述验证模块,用于将验证图数据输入待训练去偏差图神经网络,得到 验证图数据各个节点的预测标签;基于验证图数据各个节点的预测标签与验 证图数据各个节点的真实标签,确定验证图数据对应的预测正确率;
所述输出模块404,具体用于若第一损失函数的函数值小于预设函数阈值, 且两次迭代的预测正确率之间的差值小于等于预设正确率差值阈值,确定待 训练去偏差图神经网络收敛;否则,确定待训练去偏差图神经网络未收敛。
进一步的,所述装置还包括初始化模块,用于确定初始迭代次数为0;
所述输出模块404,用于如果未收敛,确定迭代次数加一,并获取训练样 本图数据和样本标签,返回所述将样本图数据和样本标签索引输入待训练去 偏差图神经网络的步骤;直至迭代次数达到预设迭代次数,确定待训练去偏 差图神经网络为目标去偏差图神经网络。
采用本发明实施例提供的装置训练的目标去偏差图神经网络的去偏差层 可以减小甚至消除训练节点的偏差,使得利用目标去偏差图神经网络预测图 数据的节点标签时,能够解决由训练节点的偏差导致的预测节点标签效果差 的问题,因此,本发明实施例训练的目标去偏差图神经网络提高了预测测试 图数据的测试节点标签的准确性,即提高了去偏差图神经网络泛化到测试节 点上的效果。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通 信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存 储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络; 其中,所述样本图数据包括:多个节点、每个节点的节点特征和部分节点的 预设节点标签;所述样本标签索引为所述样本图数据中部分节点的预设节点 标签的索引;待训练去偏差图神经网络包括:特征变量提取层、去偏差层和 输出层;
所述特征变量提取层,基于所述样本图数据和所述样本标签索引,提取 需要去相关的特征变量,并将所述特征变量输入所述去偏差层和所述输出层;
所述去偏差层,基于所述特征变量确定所述样本图数据对应的样本权重, 并将所述样本权重输入所述输出层;
所述输出层,基于所述特征变量和所述样本权重确定第一损失函数,并 基于第一损失函数判断待训练去偏差图神经网络是否收敛;
如果收敛,确定待训练去偏差图神经网络为目标去偏差图神经网络;
如果未收敛,反复迭代直至收敛。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据 总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有 一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也 可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘 存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号 处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组 件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该 计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时 实现上述任一目标信息的预测方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产 品,当其在计算机上运行时,使得计算机执行上述实施例中任一目标信息的 预测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意 组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形 式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载 和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的 流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或 者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或 者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所 述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线 (例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微 波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述 计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个 或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可 以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导 体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来 将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示 这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列 要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确 列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的 要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同 相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同 之处。尤其,对于装置、电子设备及存储介质而言,由于其基本相似于方法 实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。 凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含 在本发明的保护范围内。

Claims (10)

1.一种去偏差图神经网络的训练方法,其特征在于,包括:
将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络;其中,所述样本图数据包括:多个节点、每个节点的节点特征和部分节点的预设节点标签;所述样本标签索引为所述样本图数据中部分节点的预设节点标签的索引;待训练去偏差图神经网络包括:特征变量提取层、去偏差层和输出层;
所述特征变量提取层,基于所述样本图数据和所述样本标签索引,提取需要去相关的特征变量,并将所述特征变量输入所述去偏差层和所述输出层;
所述去偏差层,基于所述特征变量确定所述样本图数据对应的样本权重,并将所述样本权重输入所述输出层;
所述输出层,基于所述特征变量和所述样本权重确定第一损失函数,并基于第一损失函数判断待训练去偏差图神经网络是否收敛;
如果收敛,确定待训练去偏差图神经网络为目标去偏差图神经网络;
如果未收敛,反复迭代直至收敛。
2.根据权利要求1所述的方法,其特征在于,所述去偏差层为正则化器;
所述基于所述特征变量确定所述样本图数据对应的样本权重,包括:
将所述特征变量输入正则化器,得到预测样本权重;
基于预测样本权重确定正则化器对应的第二损失函数;
判断所述第二损失函数是否收敛;
如果收敛,确定预测样本权重为所述样本图数据对应的样本权重;
如果未收敛,继续优化所述第二损失函数,直至收敛。
3.根据权利要求2所述的方法,其特征在于,所述基于预测样本权重确定正则化器对应的第二损失函数,包括:
采用如下公式,基于预测样本权重确定正则化器对应的第二损失函数:
Figure FDA0003252639310000021
其中,
Figure FDA0003252639310000022
为第二损失函数,
Figure FDA0003252639310000023
为最小第二损失函数,abs()表示逐元素的绝对值运算,w为预测样本权重,wi是第i个样本权重,H为特征变量,H·j为第j个特征值,H·-j为除第j个特征值以外的其他特征值,T为矩阵转置运算符号,p为H的特征值的数量,α为特征权重,n为样本数,λ1和λ2均为可调节超参数。
4.根据权利要求1所述的方法,其特征在于,所述基于所述特征变量和所述样本权重确定第一损失函数,包括:
采用如下公式,基于所述特征变量和所述样本权重确定第一损失函数:
Figure FDA0003252639310000024
其中,
Figure FDA0003252639310000025
为第一损失函数,
Figure FDA0003252639310000026
为最小第一损失函数,θ为所述特征变量提取层和所述输出层的参数的集合,
Figure FDA0003252639310000027
是标记节点索引的集合,wl为第l个样本权重,
Figure FDA0003252639310000028
为第l个样本的特征变量,Yl为第l个样本标签索引,q(·)是softmax函数。
5.根据权利要求1所述的方法,其特征在于,所述基于第一损失函数判断待训练去偏差图神经网络是否收敛,包括:
判断第一损失函数的函数值是否小于预设函数阈值;
如果是,确定待训练去偏差图神经网络收敛;
如果否,确定待训练去偏差图神经网络未收敛。
6.根据权利要求1所述的方法,其特征在于,在所述基于第一损失函数判断待训练去偏差图神经网络是否收敛之前,还包括:
将验证图数据输入待训练去偏差图神经网络,得到验证图数据各个节点的预测标签;
基于验证图数据各个节点的预测标签与验证图数据各个节点的真实标签,确定验证图数据对应的预测正确率;
所述基于第一损失函数判断待训练去偏差图神经网络是否收敛,包括:
若第一损失函数的函数值小于预设函数阈值,且两次迭代的预测正确率之间的差值小于等于预设正确率差值阈值,确定待训练去偏差图神经网络收敛;否则,确定待训练去偏差图神经网络未收敛。
7.根据权利要求1所述的方法,其特征在于,在所述将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络之前,还包括:
确定初始迭代次数为0;
所述如果未收敛,获取训练样本图数据和样本标签,返回所述将样本图数据和样本标签索引输入待训练去偏差图神经网络的步骤,包括:
如果未收敛,确定迭代次数加一,返回所述将样本图数据和样本标签索引输入待训练去偏差图神经网络的步骤,继续更新参数;直至迭代次数达到预设迭代次数,确定待训练去偏差图神经网络为目标去偏差图神经网络。
8.一种去偏差图神经网络的训练装置,其特征在于,包括:
输入模块,用于将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络;其中,所述样本图数据包括:多个节点、每个节点的节点特征和部分节点的预设节点标签;所述样本标签索引为所述样本图数据中部分节点的预设节点标签的索引;待训练去偏差图神经网络包括:特征变量提取层、去偏差层和输出层;
特征提取模块,用于所述特征变量提取层,基于所述样本图数据和所述样本标签索引,提取需要去相关的特征变量,并将所述特征变量输入所述去偏差层和所述输出层;
去偏差模块,用于所述去偏差层,基于所述特征变量确定所述样本图数据对应的样本权重,并将所述样本权重输入所述输出层;
输出模块,用于所述输出层,基于所述特征变量和所述样本权重确定第一损失函数,并基于第一损失函数判断待训练去偏差图神经网络是否收敛;如果收敛,确定待训练去偏差图神经网络为目标去偏差图神经网络;如果未收敛,反复迭代直至收敛。
9.根据权利要求8所述的装置,其特征在于,所述去偏差层为正则化器;
所述去偏差模块,具体用于将所述特征变量输入正则化器,得到预测样本权重;基于预测样本权重确定正则化器对应的第二损失函数;判断所述第二损失函数是否收敛;如果收敛,确定预测样本权重为所述样本图数据对应的样本权重;如果未收敛,继续优化所述第二损失函数,直至收敛。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
CN202111050184.9A 2021-09-08 2021-09-08 一种去偏差图神经网络的训练方法、装置和电子设备 Pending CN114139593A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111050184.9A CN114139593A (zh) 2021-09-08 2021-09-08 一种去偏差图神经网络的训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111050184.9A CN114139593A (zh) 2021-09-08 2021-09-08 一种去偏差图神经网络的训练方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN114139593A true CN114139593A (zh) 2022-03-04

Family

ID=80394748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111050184.9A Pending CN114139593A (zh) 2021-09-08 2021-09-08 一种去偏差图神经网络的训练方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114139593A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114816963A (zh) * 2022-06-28 2022-07-29 南昌航空大学 嵌入式软件质量评估方法、系统、计算机及可读存储介质
CN116739038A (zh) * 2023-03-24 2023-09-12 中国科学技术大学 数据处理方法及装置、电子设备、计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114816963A (zh) * 2022-06-28 2022-07-29 南昌航空大学 嵌入式软件质量评估方法、系统、计算机及可读存储介质
CN114816963B (zh) * 2022-06-28 2022-09-20 南昌航空大学 嵌入式软件质量评估方法、系统、计算机及可读存储介质
CN116739038A (zh) * 2023-03-24 2023-09-12 中国科学技术大学 数据处理方法及装置、电子设备、计算机可读存储介质
CN116739038B (zh) * 2023-03-24 2024-04-05 中国科学技术大学 数据处理方法及装置、电子设备、计算机可读存储介质

Similar Documents

Publication Publication Date Title
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
Cortez et al. Using sensitivity analysis and visualization techniques to open black box data mining models
Singh et al. Online learning with kernels: Overcoming the growing sum problem
TWI631518B (zh) 具有一或多個計算裝置的電腦伺服系統及訓練事件分類器模型的電腦實作方法
Yao et al. Policy gradient based quantum approximate optimization algorithm
Saegusa et al. Joint estimation of precision matrices in heterogeneous populations
Liang et al. An equivalent measure of partial correlation coefficients for high-dimensional gaussian graphical models
CN109242223B (zh) 城市公共建筑火灾风险的量子支持向量机评估与预测方法
Leung et al. On the selection of weight decay parameter for faulty networks
CN113496247A (zh) 估计生成对抗网络的隐含似然
CN114139593A (zh) 一种去偏差图神经网络的训练方法、装置和电子设备
Tang et al. A parametric classification rule based on the exponentially embedded family
Khare et al. A scalable sparse Cholesky based approach for learning high-dimensional covariance matrices in ordered data
Mao et al. Improved extreme learning machine and its application in image quality assessment
Mesquita et al. Artificial neural networks with random weights for incomplete datasets
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
Toloo et al. Evaluation efficiency of large-scale data set with negative data: an artificial neural network approach
Shimodaira Cross-validation of matching correlation analysis by resampling matching weights
Hu Deep learning for ranking response surfaces with applications to optimal stopping problems
Belkhouja et al. Training robust deep models for time-series domain: Novel algorithms and theoretical analysis
US11144938B2 (en) Method and system for predictive modeling of consumer profiles
Culp spa: Semi-supervised semi-parametric graph-based estimation in R
Garcia-Magarinos et al. Lasso logistic regression, GSoft and the cyclic coordinate descent algorithm: application to gene expression data
Shaju et al. Analysing effectiveness of grey theory-based feature selection for meteorological estimation models
Barros et al. Building a robust extreme learning machine for classification in the presence of outliers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination