CN114139593A

CN114139593A - 一种去偏差图神经网络的训练方法、装置和电子设备

Info

Publication number: CN114139593A
Application number: CN202111050184.9A
Authority: CN
Inventors: 石川; 王啸; 范少华
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2022-03-04

Abstract

本发明实施例提供了一种去偏差图神经网络的训练方法、装置和电子设备，方法包括：将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络；基于样本图数据和样本标签索引提取需要去相关的特征变量；基于所述特征变量确定样本图数据对应的样本权重；基于特征变量和样本权重确定第一损失函数，并基于第一损失函数判断待训练去偏差图神经网络是否收敛；若收敛，确定待训练去偏差图神经网络为目标去偏差图神经网络；若未收敛，反复迭代直至收敛。该方法训练的目标去偏差图神经网络可以减小训练节点的偏差，提高了去偏差图神经网络泛化到测试节点上的效果。

Description

一种去偏差图神经网络的训练方法、装置和电子设备

技术领域

本发明应用于深度学习技术领域，特别是涉及一种去偏差图神经网络的训练方法、装置和电子设备。

背景技术

GNN(Graph Neural Networks，图神经网络)是一种基于图数据结构的深度学习方法，其被广泛应用于推荐系统、金融风控和知识图谱等领域。图数据是由一系列的对象和对象之间的关系组成的结构化数据。通常可以用G＝ (V,E)表示图数据，其中，V为图数据所有节点的集合，每个节点表示表征一个图数据的对象，E为图数据中所有边的集合，两个节点之间的连线构成的边用于表示该两个节点所表征的对象之间的关系。

现有的GNN主要是通过从节点聚合特征来学习节点嵌入，并由节点标签以端到端的方式进行监督学习。具体的，GNN通过有效学习图数据结构的特征和带有标签的节点之间的相关性，从而使GNN自身能够学习新节点的表示，推断出新节点的标签。

然而，现有的GNN在训练过程中存在参数估计偏差的问题，并且参数估计偏差问题会极大地影响所训练的GNN网络泛化到测试节点上的效果。例如，以训练科学家合作网络为例，如果大多数具有“机器学习”(ML)标签的科学家与具有“计算机视觉”(CV)标签的科学家合作，现有的GNN可能会学得虚假的相关性，即学习到和CV科学家合作的科学家为ML科学家。如果测试集中测试节点表征的新ML科学家仅与ML科学家合作。那么利用学习到虚假相关性的GNN模型对测试节点进行分类，则可能导致对新ML科学家的错误分类。

发明内容

本发明实施例的目的在于提供一种去偏差图神经网络的训练方法、装置和电子设备，以提高所训练的去偏差图神经网络泛化到测试节点上的效果。

为了达到上述目的，本发明实施例提供了一种去偏差图神经网络的训练方法，包括：

将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络；其中，所述样本图数据包括：多个节点、每个节点的节点特征和部分节点的预设节点标签；所述样本标签索引为所述样本图数据中部分节点的预设节点标签的索引；待训练去偏差图神经网络包括：特征变量提取层、去偏差层和输出层；

所述特征变量提取层，基于所述样本图数据和所述样本标签索引，提取需要去相关的特征变量，并将所述特征变量输入所述去偏差层和所述输出层；

所述去偏差层，基于所述特征变量确定所述样本图数据对应的样本权重，并将所述样本权重输入所述输出层；

所述输出层，基于所述特征变量和所述样本权重确定第一损失函数，并基于第一损失函数判断待训练去偏差图神经网络是否收敛；

如果收敛，确定待训练去偏差图神经网络为目标去偏差图神经网络；

如果未收敛，反复迭代直至收敛。

进一步的，所述去偏差层为正则化器；

所述基于所述特征变量确定所述样本图数据对应的样本权重，包括：

将所述特征变量输入正则化器，得到预测样本权重；

基于预测样本权重确定正则化器对应的第二损失函数；

判断所述第二损失函数是否收敛；

如果收敛，确定预测样本权重为所述样本图数据对应的样本权重；

如果未收敛，继续优化所述第二损失函数，直至收敛。

进一步的，所述基于预测样本权重确定正则化器对应的第二损失函数，包括：

采用如下公式，基于预测样本权重确定正则化器对应的第二损失函数：

其中，

为第二损失函数，

为最小第二损失函数， abs()表示逐元素的绝对值运算，w为预测样本权重，w_i是第i个样本权重， H为特征变量，H_·j为第j个特征值，H_·-j为除第j个特征值以外的其他特征值， T为矩阵转置运算符号，p为H的特征值的数量，α为特征权重，n为样本数， λ₁和λ₂均为可调节超参数。

进一步的，所述基于所述特征变量和所述样本权重确定第一损失函数，包括：

采用如下公式，基于所述特征变量和所述样本权重确定第一损失函数：

其中，

为第一损失函数，

为最小第一损失函数，θ为所述特征变量提取层和所述输出层的参数的集合，

是标记节点索引的集合，w_l为第l个样本权重，

为第l个样本的特征变量，Y_l为第l个样本标签索引，q(·)是softmax函数。

进一步的，所述基于第一损失函数判断待训练去偏差图神经网络是否收敛，包括：

判断第一损失函数的函数值是否小于预设函数阈值；

如果是，确定待训练去偏差图神经网络收敛；

如果否，确定待训练去偏差图神经网络未收敛。

进一步的，在所述基于第一损失函数判断待训练去偏差图神经网络是否收敛之前，还包括：

将验证图数据输入待训练去偏差图神经网络，得到验证图数据各个节点的预测标签；

基于验证图数据各个节点的预测标签与验证图数据各个节点的真实标签，确定验证图数据对应的预测正确率；

所述基于第一损失函数判断待训练去偏差图神经网络是否收敛，包括：

若第一损失函数的函数值小于预设函数阈值，且两次迭代的预测正确率之间的差值小于等于预设正确率差值阈值，确定待训练去偏差图神经网络收敛；否则，确定待训练去偏差图神经网络未收敛。

进一步的，在所述将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络之前，还包括：

确定初始迭代次数为0；

所述如果未收敛，获取训练样本图数据和样本标签，返回所述将样本图数据和样本标签索引输入待训练去偏差图神经网络的步骤，包括：

如果未收敛，确定迭代次数加一，返回所述将样本图数据和样本标签索引输入待训练去偏差图神经网络的步骤，继续更新参数；直至迭代次数达到预设迭代次数，确定待训练去偏差图神经网络为目标去偏差图神经网络。

为了达到上述目的，本发明实施例还提供了一种去偏差图神经网络的训练装置，包括：

输入模块，用于将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络；其中，所述样本图数据包括：多个节点、每个节点的节点特征和部分节点的预设节点标签；所述样本标签索引为所述样本图数据中部分节点的预设节点标签的索引；待训练去偏差图神经网络包括：特征变量提取层、去偏差层和输出层；

特征提取模块，用于所述特征变量提取层，基于所述样本图数据和所述样本标签索引，提取需要去相关的特征变量，并将所述特征变量输入所述去偏差层和所述输出层；

去偏差模块，用于所述去偏差层，基于所述特征变量确定所述样本图数据对应的样本权重，并将所述样本权重输入所述输出层；

输出模块，用于所述输出层，基于所述特征变量和所述样本权重确定第一损失函数，并基于第一损失函数判断待训练去偏差图神经网络是否收敛；如果收敛，确定待训练去偏差图神经网络为目标去偏差图神经网络；如果未收敛，反复迭代直至收敛。

进一步的，所述去偏差层为正则化器；

所述去偏差模块，具体用于将所述特征变量输入正则化器，得到预测样本权重；基于预测样本权重确定正则化器对应的第二损失函数；判断所述第二损失函数是否收敛；如果收敛，确定预测样本权重为所述样本图数据对应的样本权重；如果未收敛，继续优化所述第二损失函数，直至收敛。

为了达到上述目的，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述去偏差图神经网络的训练方法步骤。

为了达到上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的去偏差图神经网络的训练方法步骤。

为了达到上述目的，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的去偏差图神经网络的训练方法步骤。

本发明实施例有益效果：

采用本发明实施例提供的方法，将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络；特征变量提取层基于样本图数据和所述样本标签索引，提取需要去相关的特征变量，并将特征变量输入所述去偏差层和输出层；去偏差层基于特征变量确定样本图数据对应的样本权重，并将样本权重输入输出层；输出层，基于特征变量和样本权重确定第一损失函数，并基于第一损失函数判断待训练去偏差图神经网络是否收敛；如果收敛，确定待训练去偏差图神经网络为目标去偏差图神经网络；如果未收敛，反复迭代直至收敛。本发明实施例训练的目标去偏差图神经网络的去偏差层可以减小甚至消除训练节点的偏差，使得利用目标去偏差图神经网络预测图数据的节点标签时，能够解决由训练节点的偏差导致的预测节点标签效果差的问题，因此，本发明实施例训练的目标去偏差图神经网络提高了预测测试图数据的测试节点标签的准确性，即提高了去偏差图神经网络泛化到测试节点上的效果。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为数据选择偏差在GNN模型上的影响示意图；

图2为本发明实施例提供的去偏差图神经网络的训练方法的一种流程图；

图3为发明实施例提供的去偏差神经网络的一种框架示意图；

图4为本发明实施例提供的去偏差图神经网络的训练装置的一种结构图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

发明人发现现有的GNN网络在预测图数据的节点标签时并未考虑图数据的选择偏差，即现有的GNN存在训练集和测试集之间的数据分布不一致的问题。同时，在利用训练集的数据训练GNN网络过程中通常也无法获得测试集的测试数据，这也使得选择偏差变得不可知。发明人进一步研究发现，如果用有偏差图数据训练GNN网络会导致比较明显的参数估计偏差，这会极大程度影响GNN网络泛化到测试节点上的效果，使GNN网络预测测试集中测试节点标签的效果变差。其中，GNN和GCN(Graph convolutional networks，图卷积神经网络)效果类似，存在的问题也类似。

为了观察真实图数据中的选择偏差，发明人进行了验证实验，验证选择偏差对GNN网络的影响。具体的，发明人选择了偏差程度不同的图数据训练节点，且所选择的训练节点和测试节点分布不一致。实验的具体过程及实验结果如下：

首先，可以给定训练图数据

其中

(N个训练节点)表示N个训练节点的邻接矩阵，

(D维特征)表示训练节点特征，

(n个测试节点，C个类型) 表示可用于训练的训练节点标签(n＜N)。

实验任务：学习一个GNNg_θ(·)，其参数是θ，用于预测测试图数据

中测试节点的标签，A_test表示测试节点的邻接矩阵，X_test表示测试节点特征，Y_test表示测试节点标签。其中，训练图数据和测试图数据的分布不一致：

实验过程：在三个广泛使用的具有不同程度偏差的图数据集Cora、Citeseer和Pubmed上运行两个有代表性的GNN网络：GCN(Graph convolutional networks，图卷积神经网络)和GAT(Graph attention networks，图注意力网络)。具体的，为了模拟不可知的选择偏差情况，可以首先在训练过程中掩盖训练图数据中的测试节点和测试节点，然后在测试阶段使用整个图数据进行测试。发明人还设计了一种有偏差的标签选择方法，引入选择变量e控制是否将节点选择为标记节点，其中e＝1表示已选择，否则为0。对于节点i，可以计算其邻近节点的分布比率：

其中

是

中节点i的邻域，而y_j≠y_i表示中心节点i的标签不是其邻域的标签节点j。r_i度量中心节点i的标签与其附近的标签之间的差。然后，可以平均所有节点的r以获得阈值t。对于每个节点，其被选择的概率为：

其中e_i表示第i个样本是否被选择，∈∈(0.5，1)为偏差度，∈用于控制选择偏差的程度，较大的∈表示选择偏差较大。可以在实验过程中将∈设置为{0.7，0.8，0.9}，以使每个数据集获得三个偏差度，分别称为{Light，Medium，Heavy}。可以在每个类选择20个节点进行训练。此外，我们以unbiased(无偏差)数据集为基准，其中标记节点是随机选择的。

实验结果：图1为数据选择偏差在GNN模型上的影响示意图。图1中 (a)展示了GCN和GAT运行在图数据集Cora中时，在四种偏差度 “unbiased(偏差度为0)、Light(低偏差度)、Medium(中偏差度)、Heavy (高偏差度)”的情况下，泛化到测试节点上的性能效果；图1中(b)展示了GCN和GAT运行在图数据集Citeseer中时，在四种偏差度“unbiased、 Light、Medium、Heavy”的情况下，泛化到测试节点上的性能效果；图1中 (c)展示了GCN和GAT运行在图数据集Pubmed中时，在四种偏差度 “unbiased、Light、Medium、Heavy”的情况下，泛化到测试节点上的性能效果。其中，偏差度Light通常取值为0.7，偏差度Medium通常取值为0.8，偏差度Heavy通常取值为0.9。

如图1所示，可以发现，第一点、和无偏差的情况相比，当GCN/GAT运行在有偏差度的数据上时，性能下降很多，这表示选择偏差将会极大的影响 GNN的性能；第二点、GCN/GAT运行在图数据集Cora、Citeseer和Pubmed中任一个时，GCN/GAT性能都随偏差度的增加而单调减小，这表明较大的选择偏差将导致GCN/GAT的性能下降。

实验表明：选择偏极大地阻碍了GNN在不可知测试节点上的性能，而且，随着偏差的增加，性能会下降更多。

针对上述实验所发现的参数估计偏差问题会极大地影响所训练的GNN网络泛化到测试节点上的效果的问题，本发明实施例提供了一种去偏差图神经网络的训练方法、装置和电子设备，以提高所训练的去偏差图神经网络泛化到测试节点上的效果。下面将结合附图对本发明实施例所提供的去偏差图神经网络的训练方法进行详细描述。

图2为本发明实施例提供的去偏差图神经网络的训练方法的一种流程图，如图2所示，该方法包括：

步骤201，将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络。

其中，样本图数据包括：多个节点、每个节点的节点特征和部分节点的预设节点标签；样本标签索引为样本图数据中部分节点的预设节点标签的索引；待训练去偏差图神经网络包括：特征变量提取层、去偏差层和输出层。

步骤202，特征变量提取层，基于样本图数据和样本标签索引，提取需要去相关的特征变量，并将特征变量输入去偏差层和输出层。

步骤203，去偏差层，基于特征变量确定样本图数据对应的样本权重，并将样本权重输入输出层。

步骤204，输出层，基于特征变量和样本权重确定第一损失函数，并基于第一损失函数判断待训练去偏差图神经网络是否收敛。

步骤205，如果收敛，确定待训练去偏差图神经网络为目标去偏差图神经网络。

步骤206，如果未收敛，反复迭代直至收敛。

在一种可能的实施方式中，待训练去偏差图神经网络的去偏差层为正则化器。上述步骤203中所述去偏差层，基于所述特征变量确定所述样本图数据对应的样本权重具体可以包括如下步骤A1-A5：

步骤A1：将所述特征变量输入正则化器，得到预测样本权重；

步骤A2：基于预测样本权重确定正则化器对应的第二损失函数；

步骤A3：判断所述第二损失函数是否收敛；

步骤A4：如果收敛，确定预测样本权重为所述样本图数据对应的样本权重；

步骤A5：如果未收敛，继续优化所述第二损失函数，直至收敛。

其中，具体采用如下公式，基于预测样本权重确定正则化器对应的第二损失函数：

其中，

为第二损失函数，

在另一种可能的实施方式中，上述步骤204中具体可以采用如下公式，基于特征变量和所述样本权重确定第一损失函数：

其中，

为第一损失函数，

是标记节点索引的集合，w_l为第l个样本权重，

为第l个样本的特征变量，Y_l为第l个样本标签索引，q(·)是 softmax函数。

在一种可能的实施方式中，上述步骤204中所述去偏差层，基于第一损失函数判断待训练去偏差图神经网络是否收敛，具体可以包括如下步骤B1- B5：

步骤B1：判断第一损失函数的函数值是否小于预设函数阈值；

步骤B2：如果是，确定待训练去偏差图神经网络收敛；

步骤B3：如果否，确定待训练去偏差图神经网络未收敛。

其中，预设函数阈值可以根据具体应用情况进行设定，此处不做具体限定。

在另一种可能的实施方式中，在执行上述步骤201中将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络的步骤之前，还可以先确定初始迭代次数为0；在此基础上，上述步骤204中如果未收敛，获取训练样本图数据和样本标签，返回所述将样本图数据和样本标签索引输入待训练去偏差图神经网络的步骤具体可以包括：如果未收敛，确定迭代次数加一，并获取训练样本图数据和样本标签，返回所述将样本图数据和样本标签索引输入待训练去偏差图神经网络的步骤，继续更新参数；直至迭代次数达到预设迭代次数，确定待训练去偏差图神经网络为目标去偏差图神经网络。其中，预设迭代次数可以根据实际应用情况设定为5000或10000等。

在一种可能的实施方式中，在基于第一损失函数判断待训练去偏差图神经网络是否收敛之前，还可以将验证图数据输入待训练去偏差图神经网络，得到验证图数据各个节点的预测标签；基于验证图数据各个节点的预测标签与验证图数据各个节点的真实标签，确定验证图数据对应的预测正确率；则基于第一损失函数判断待训练去偏差图神经网络是否收敛，可以包括：若第一损失函数的函数值小于预设函数阈值，且两次迭代的预测正确率之间的差值小于等于预设正确率差值阈值，确定待训练去偏差图神经网络收敛；否则，确定待训练去偏差图神经网络未收敛。

采用本发明实施例提供的方法，通过目标去偏差图神经网络的去偏差层可以减小甚至消除训练节点的偏差，使得利用目标去偏差图神经网络预测图数据的节点标签时，能够解决由训练节点的偏差导致的预测节点标签效果差的问题，因此，本发明实施例训练的目标去偏差图神经网络提高了预测测试图数据的测试节点标签的准确性，即提高了去偏差图神经网络泛化到测试节点上的效果。

本发明实施例提出了一种新颖的去偏差图神经网络DGNN(DebiasedGraph NeuralNetworks，去偏差图神经网络)框架，通过联合优化差分解相关正则化器和加权GNN实现稳定的图数据学习。本发明实施例中，从理论上分析了选择偏差对估计GNN中参数的影响。首先，因为有偏差的标签节点具有偏向的邻域结构，所以GNN将对该偏向的信息进行编码嵌入节点。基于稳定的学习技术，本发明实施例做出以下两点假设：

假设1：GNN为图数据的每个节点嵌入的所有变量都可以分解为 H＝{S,V}，其中S表示稳定变量，V表示不稳定变量。

在GNN学习到的所有变量中，稳定变量S具有对GNN网络的学习结果的因果效应，即S在训练节点和测试节点之间是不变的；不稳定变量V编码有偏差的信息，不稳定变量V对GNN网络的学习结果Y没有因果效应，但是不稳定变量V可能与稳定变量S、GNN网络的学习结果Y这两者之间相关。假设1表明存在稳定变量S，可以利用该稳定变量S进行稳定的节点标签预测，即在未知测试节点上实现精确的节点标签预测。

将Y作为连续变量进行分析，并具有以下假设2：Y的生成过程不仅包含稳定变量S的线性组合，还包含稳定变量S的非线性变换。

基于以上假设，可以将标签生成过程形式化如下：

其中X表示图数据的特征矩阵，A表示图数据的邻接矩阵，f(X,A)为X 和A到Y的映射关系，

表示X和A用于学习节点嵌入的未知函数，并且可以由GNN(例如GCN和GAT)来学习，

可以分解为稳定变量

和非稳定变量

p是节点嵌入的总维度，m是稳定变量维度，q是非稳定变量维度，β_S和β_V是可以由GNN学习的线性系数，ε是独立的随机噪声，g(·)是稳定变量的非线性变换函数。根据假设1，可以知道不稳定变量

的系数实际上为0 (即β_V＝0)。

对于具有线性回归器的经典GNN网络，其预测函数可以表示为：

与公式1相比，如果非线性项

则可以无偏差估计 GNN的参数，因为GNN网络将具有与公式1相同的节点标签生成机制。然而，受GNN的非线性能力影响，可以假设存在一个非线性项

使得GNN无法拟合。因此，稳定变量和不稳定变量的参数都会有偏差。以GCN为例，可以表示为

其中

是标准化的邻接矩阵，W是每层的变换矩阵，σ(·)是Relu激活函数，

是第一层图神经网络的输出。可以将GCN分解为两个部分：嵌入学习部分

和W⁽¹⁾部分。其中，嵌入学习部分

可以分解为[S^T,V^T]。W⁽¹⁾部分学习的参数可以分解为

其中，

表示稳定特征的线性系数，

表示非稳定特征的线性系数，对应于公式(2)中的

其中，

表示稳定特征的线性系数，

表示非稳定特征的线性系数。目标是最小化平方损失：

其中V_i是V的第i个样本，S_i是S的第i个样本，Y_i是第i个样本的标签。根据分块回归模型的推导规则，可以得到:

其中，n标签节点个数大小，T为矩阵转置运算符号，S是稳定特征，V 是非稳定特征，V_i是V的第i个样本，S_i是S的第i个样本，

o_p(1) 是可以忽略的误差。在理想情况下，

表示估计参数与实际参数之间没有偏差。但是，如果公式3中的

或

将有偏差，导致公式4中的

也会有偏差。由于V和S(或g(S))之间的相关性在网络测试阶段可能会发生变化，因此训练集中学习的有偏差的参数并不是用于预测测试节点标签的最佳参数。因此，为了提高预测的稳定性，需要通过消除V和S(或g(S))之间的相关性，以无偏差估计

的参数训练图数据，使得

或

本发明实施例去通过对

的输出进行去相关，实现对V和S(或 g(S))进行解相关。具体的，本发明实施例提供了带有样本重加权技术的变量解相关(VariableDecorrelation,VD)项，以消除每个特征变量对之间的相关性，通过共同最小化每个变量对之间的矩差异来学习样本权重：

其中

表示需要去相关的变量，T为矩阵转置运算符号，H_j是第H 的第j个变量，H_-j＝H\H_j表示通过设置H中第j个特征为0后剩余的所有变量，p是H的变量的数量，n是样本个数，

是样本权重,

Λ_w＝diag(w₁,…,w_n)是对应的对角矩阵。基于此，

可以重新表示为

是用于对每个变量对i和j让

等价地解相关所有变量对。但是，将所有变量解相关需要足够的样本n→∞，这很难满足，尤其是在半监督环境中。在此基础上，本发明实施例通过混淆的平衡技术实现了因果效应的无偏差估计。混淆的平衡技术通常用于估算治疗T的因果效应，其中治疗组(T＝1)和对照组(T＝0)的混杂因素X不同，因为非随机治疗分配。可以在平衡治疗组和对照组之间混合混杂因素的分布来实现因果效应的无偏差估计。通常的平衡方法都是利用矩来表征分布，并通过如下调整样本权重w 来平衡它们：

其中T_i表示第i个样本是否属于治疗组，X_i表示第i个样本的混杂因子，w_i为第i个样本的权重。平衡后，治疗T和混杂因素X往往是独立的。

通过给定目标变量j，在目标变量仅具有线性关系假设下，目标变量的去相关项

与混淆平衡项使治疗和混杂因素独立的相同，是使

独立于H_-j。因此，

也可以看作是一个混淆变量的平衡项。因此，本发明实施例的目标可以解释为无偏差估计每个特征变量的因果效应，这个因果效应在训练集和测试集上不改变。由于不同的特征变量可能对混杂的偏差造成不平等的影响，因此有必要区分混杂因素。区分混杂因素消除了对无偏差估计影响最大的变量相关性。

以下实施例提供了差分变量去相关的内容：

本发明实施例，可以通过边际治疗效果函数(MTEF)来衡量治疗的因果关系，并定义为：

Y_i(t)代表样本i的治疗状态为 T＝t的潜在输出，其中t表示是否接受治疗，

表示期望函数，而Δt表示治疗水平的差距。通过样本权重w去除治疗和混杂因素的相关性，具体可以通过以下方式估算MTEF：

其中，

表示边际治疗效果函数的估计值，T_j为第j个样本的治疗状态，w_j为第j个样本的权值,Y_j(t)代表样本j的治疗状态为T＝t的潜在输出。

本发明实施例可以基于以下理论分析区分混杂因素的权重的方法：

理论1：不同的混杂因素使用不同的权重对边际治疗效果函数(MTEF) 造成不平等的混淆偏差，并且权重可以通过对混杂因素X和治疗变量T的结果Y的回归学得。

可以通过以下的假设3证明上述定理1：

假设3：结果Y对观察变量X和处理变量T的回归是线性的，即 Y＝∑_k≠tα_kX_.k+α_tT+c+ε，其中α_k∈α是线性系数，c是偏置参数，ε是噪声参数。

在假设3下，可以确定MTEF的估计量

为：

其中MTEF是实际值，X_ik表示第i个样本第k个特征的值，X_jk表示第j 个样本第k个特征的值，φ(ε)表示噪声项。为了减少

的偏差，需要对项

其中

表示治疗样本与对照样本之间第k个混杂因子的差。参数α_k表示第k个混杂器的混杂偏差权重，是X_k的系数。此外，在治疗和每个混杂因素之间需要学习治疗权重α_t，即T的系数。因此，在线性假设下混杂因素的权重和治疗权重可以从对混杂因素X和治疗T的结果Y的回归系数中学到。

对于GNN，变量权重α可以从嵌入H的回归系数中计算出，因此α等于在公式2中的

可以应用变量权重α来区分DVD(Differetiated Variable Decorrelation,DVD，差分变量解相关)项中的变量权重，如下式所示：

其中，abs()表示逐元素的绝对值运算，防止消除正负值。添加

以减少样本权重的方差以获得稳定性，

避免所有样本权重均为0。项w≥0将每个样本的重量限制为非负数。变量重新加权后，加权等式中的去相关项可以重写为

变量对j和k的权重为

因此，同时考虑了治疗和混杂因素权重。

本发明实施例提供的去偏差图神经网络的框架以无缝方式将DVD/VD正则化器与GNN结合在一起，将

解相关可以使GNN稳定。但是，大多数GNN遵循逐层堆叠的结构，实现时更容易获得每一层的输出嵌入。由于

是的第一层嵌入

的聚合，将这些变量解相关可能缺乏将DVD/VD项与其他GNN结构结合的灵活性。通过运用以下定理2，使得将变量去相关与GNN结合得更灵活。

定理2。给定p个两两不相关变量Z＝(Z₁,Z₂,…,Z_p)，和线性聚合运算符

的变量仍然是成对不相关的。

定理表明，如果嵌入变量Z不相关，则在任何形式的线性邻域聚集

之后，例如平均值或求和，嵌入Y也将不相关。因此，解相关

也可以减少估计偏差。对于GNN的K层，可以直接对第(K-1)层的输出进行解相关，即

对于K层的GCN。

本发明实施例中，还可以将softmax层用作GNN的输出层，而损失函数为交叉熵误差函数。根据Newton-Raphson(牛顿-拉裴森)更新规则，可以得出GNN最后一层的变换矩阵W^(K-1)的更新公式为：

其中，

是W^(K-1)的更新公式，

是W^(K-1)上一轮的权值，R是一个加权矩阵，H是特征矩阵，T是矩阵转置运算符号，

表示R元素的值，N是样本数，n是样本序号，H_n是第n个样本的特征值，Y_j是第j个样本的标签，I_kj是单位矩阵的元素，而

是有效目标值。公式(9)采取一组加权最小二乘问题的正规方程。由于加权矩阵R不是常数，而是取决于参数向量

因此在使用中必须迭代地应用正规方程。每次迭代都使用最后一次迭代的权重向量

来计算修正后的加权矩阵R并使用

回归目标值z。因此，变量解相关也可以通过softmax分类器应用于GNN，以减少每次迭代中的估计偏差。值得注意的是，根据公式(9)需要在每轮迭代计算逆矩阵 (H^TRH)^-1，其需要很大的计算量。实际上，本发明实施例可以使用梯度下降方法来近似公式(9),并且本发明实施例通过实验，使用梯度下降方法也取得了良好的效果。

图3为发明实施例提供的去偏差神经网络的一种框架示意图。如图3所示，可以将多个输入图数据310进行聚合，得到多个特征变量H⁽¹⁾-H^(K-1)，将第K层的H^(K-1)进行线性变换，得到第K层的变换矩阵W^(K-1)。图3中可以将标记节点的嵌入

输入到正则化器

即DVD项中，并且，将基于线性变换得到的方差α作为特征权重也输入到DVD项中，基于α对

进行处理，得到样本权重w，其中，

为

第p个特征值，

为

除第p个特征值以外的其他特征值。然后将得到的样本权重w用于对

的输出

进行重加权，并结合标签Y计算损失。由于GNN的公式为

因此，用于区分

可以的特征权重可以从Var(W^(K-1),axis＝1)中计算，其中Var(,axis＝1)是指计算某个矩阵的每一行的方差，它反映了每个变量的对于分类任务的权重，与回归系数相似(在将VD项与GNN合并时，不需要计算变量权重)。然后DVD项学习的样本权重w具有移除

中的相关性的能力。本发明实施例可以使用以下样本权重来重新加权softmax损失：

其中q(·)是softmax函数，

是标记节点索引的集合，而θ是GCN的参数的集合。

以下，利用两种选择偏差数据(即标签选择偏向和小样本选择偏向)验证本发明实施例训练的去偏差神经网络在预测节点标签上的有效性：

对于标签选择偏差，本实施例使用了三个广泛使用的图数据集：Cora， Citeseer和Pubmed。并为每个图数据进行归纳设置，为每个图数据获取三个偏差度。对于较小的样本选择偏差，可以在NELL数据集上进行实验，每个类只有一个标记的节点用于训练。由于该数据集的规模较大，因此测试节点很容易从训练节点发生分布偏移。

基线方法：本发明实施例训练的去偏差神经网络，将VD/DVD项与 GCN和GAT合并，称为GCN-VD/DVD和GAT-VD/DVD，因此GCN和 GAT为两个基本的对比方法。可以将与GNM-GCN/GAT(Graph-based joint model with Nonignorable Missingness，具有不可忽略偏差的基于图的联合模型)进行比较，后者考虑了直推设置中的标签选择偏差。此外，还包括一些GNN：Chebyshev过滤器，SGC和APPNP(Approximate personalized propagation of neuralpredictions，神经预测的近似个性化传播)。本实施例将在标记节点上训练的Planetoid和MLP进行了比较。

实验结果如表1所示，通过表1中可以发现：

第一点、在大多数情况下，去偏差神经网络都可以达到最佳性能，这充分证明了本发明实施例所训练的去偏差神经网络有效性。

第二点、与基本模型相比，本发明实施例所训练的去偏差神经网络均达到了17.0％的性能改善，并在偏差更大的情况下获得更大的提升。由于本发明实施例所训练的去偏差神经网络与基本模型之间的主要区别是VD/DVD 正则化项，因此可以将性能改善归结为有效的去相关项及其与GNN模型的无缝结合。而且，在大多数情况下，GCN/GAT-DVD可获得比GCN/GAT- VD更好的效果，它验证了在半监督环境下区分变量权重的重要性和有效性。

表1：在三个引用数据集上的实验结果

小样本选择偏差数据集的实验结果如表2所示：

表2：在NELL数据集上的实验结果

由于NELL是一个大规模图数据集，因此无法在具有16GB内存的单个 GPU上运行GAT。本实验仅执行GCN-VD/DVD，并与可以在此数据集上执行的代表性方法进行比较。如表2的实验结果所示：第一点、GCN-VD/ DVD比GCN有了明显的提升，这表明选择偏差可能是由少量标记节点引起的，本发明实施例所训练的去偏差神经网络可以减轻估计偏差，并且GCN- DVD极大改善了GCN-VD。

本发明实施例中，通过在不可知选择偏差下学习神经网络，选择偏差将不可避免地使GNN学习聚合模式和类别标签之间的偏差相关性，并使预测变得不稳定。然而，本发明实施例训练去偏差神经网络，将去偏技术与GNN结合在一个统一的网络框架中，极大程度上提高了所训练的去偏差图神经网络泛化到测试节点上的效果，以及提高了去偏差图神经网络泛化的有效性和灵活性。

基于同一发明构思，根据本发明上述实施例提供的去偏差图神经网络的训练方法，相应地，本发明另一实施例还提供了一种去偏差图神经网络的训练装置，应用于电子设备，其结构示意图如图4所示，具体包括：

输入模块401，用于将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络；其中，所述样本图数据包括：多个节点、每个节点的节点特征和部分节点的预设节点标签；所述样本标签索引为所述样本图数据中部分节点的预设节点标签的索引；待训练去偏差图神经网络包括：特征变量提取层、去偏差层和输出层；

特征提取模块402，用于所述特征变量提取层，基于所述样本图数据和所述样本标签索引，提取需要去相关的特征变量，并将所述特征变量输入所述去偏差层和所述输出层；

去偏差模块403，用于所述去偏差层，基于所述特征变量确定所述样本图数据对应的样本权重，并将所述样本权重输入所述输出层；

输出模块404，用于所述输出层，基于所述特征变量和所述样本权重确定第一损失函数，并基于第一损失函数判断待训练去偏差图神经网络是否收敛；如果收敛，确定待训练去偏差图神经网络为目标去偏差图神经网络；如果未收敛，反复迭代直至收敛。

采用本发明实施例提供的装置，将样本图数据及其对应的样本标签索引输入待训练去偏差图神经网络；特征变量提取层基于样本图数据和所述样本标签索引，提取需要去相关的特征变量，并将特征变量输入所述去偏差层和输出层；去偏差层基于特征变量确定样本图数据对应的样本权重，并将样本权重输入输出层；输出层，基于特征变量和样本权重确定第一损失函数，并基于第一损失函数判断待训练去偏差图神经网络是否收敛；如果收敛，确定待训练去偏差图神经网络为目标去偏差图神经网络；如果未收敛，反复迭代直至收敛。本发明实施例训练的目标去偏差图神经网络的去偏差层可以减小甚至消除训练节点的偏差，使得利用目标去偏差图神经网络预测图数据的节点标签时，能够解决由训练节点的偏差导致的预测节点标签效果差的问题，因此，本发明实施例训练的目标去偏差图神经网络提高了预测测试图数据的测试节点标签的准确性，即提高了去偏差图神经网络泛化到测试节点上的效果。

进一步的，所述去偏差层为正则化器；

所述去偏差模块403，具体用于将所述特征变量输入正则化器，得到预测样本权重；基于预测样本权重确定正则化器对应的第二损失函数；判断所述第二损失函数是否收敛；如果收敛，确定预测样本权重为所述样本图数据对应的样本权重；如果未收敛，继续优化所述第二损失函数，直至收敛。

进一步的，所述去偏差模块403，具体用于采用如下公式，基于预测样本权重确定正则化器对应的第二损失函数：

其中，

为第二损失函数，

进一步的，所述输出模块404，具体用于采用如下公式，基于所述特征变量和所述样本权重确定第一损失函数：

其中，

为第一损失函数，

是标记节点索引的集合，w_l为第l个样本权重，

进一步的，所述输出模块404，具体用于判断第一损失函数的函数值是否小于预设函数阈值；如果是，确定待训练去偏差图神经网络收敛；如果否，确定待训练去偏差图神经网络未收敛。

进一步的，所述装置还包括验证模块(图中为标出)；

所述验证模块，用于将验证图数据输入待训练去偏差图神经网络，得到验证图数据各个节点的预测标签；基于验证图数据各个节点的预测标签与验证图数据各个节点的真实标签，确定验证图数据对应的预测正确率；

所述输出模块404，具体用于若第一损失函数的函数值小于预设函数阈值，且两次迭代的预测正确率之间的差值小于等于预设正确率差值阈值，确定待训练去偏差图神经网络收敛；否则，确定待训练去偏差图神经网络未收敛。

进一步的，所述装置还包括初始化模块，用于确定初始迭代次数为0；

所述输出模块404，用于如果未收敛，确定迭代次数加一，并获取训练样本图数据和样本标签，返回所述将样本图数据和样本标签索引输入待训练去偏差图神经网络的步骤；直至迭代次数达到预设迭代次数，确定待训练去偏差图神经网络为目标去偏差图神经网络。

采用本发明实施例提供的装置训练的目标去偏差图神经网络的去偏差层可以减小甚至消除训练节点的偏差，使得利用目标去偏差图神经网络预测图数据的节点标签时，能够解决由训练节点的偏差导致的预测节点标签效果差的问题，因此，本发明实施例训练的目标去偏差图神经网络提高了预测测试图数据的测试节点标签的准确性，即提高了去偏差图神经网络泛化到测试节点上的效果。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

如果未收敛，反复迭代直至收敛。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一目标信息的预测方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一目标信息的预测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线 (例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。