CN115019891A

CN115019891A - 一种基于半监督图神经网络的个体驱动基因预测方法

Info

Publication number: CN115019891A
Application number: CN202210645490.5A
Authority: CN
Inventors: 郭伟峰; 万瀚文; 梅一博; 王远超; 朱璐瑶; 程涵
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-06
Anticipated expiration: 2042-06-08
Also published as: CN115019891B

Abstract

本发明涉及基因数据分析技术领域，具体地说，设计一种基于半监督图神经网络的个体驱动基因预测方法，其包括以下步骤：1)利用个体患者基因组数据构建个体化基因交互网络PGIN；2)用标签重用策略训练图注意网络GAT，识别个体化驱动基因，具体为：a、通过将邻接矩阵、初始节点特征和节点标签作为输入的初始GAT模型获得初始预测标签；b、在GAT上应用了标签重利用策略预测癌症驱动基因；c、对基因进行投票，并对基因得分进行排序，以获得个体患者的基因排序。本发明能较佳地进行个体驱动基因预测。

Description

一种基于半监督图神经网络的个体驱动基因预测方法

技术领域

本发明涉及基因数据分析技术领域，具体地说，设计一种基于半监督图神经网络的个体驱动基因预测方法。

背景技术

癌症是由少量的基因组和转录组突变基因(即驱动基因)驱动的，这有助于理解在癌症精确医疗中治疗个体患者的分子机制癌症已成为威胁我国居民健康重大公共卫生问题之一。

在癌症基因组数据分析中，目前个体患者驱动基因预测方法主要可分为两种类型，即无监督学习方法和有监督学习方法。一方面，无监督学习方法主要利用网络技术，包括结构网络控制原理、重启随机游走(RWR)方法、网络扩散方法和斯坦纳树方法来对个体化驱动基因进行优先排序。虽然这些方法可以有效预测一些个体化的癌症驱动基因，但它们通常忽略现有的已知癌症驱动基因信息，容易出现假阳性，影响预测精度。另一方面，IMCDriver作为目前唯一的一种监督学习方法，主要是将成熟的驱动基因作为监督参考信息，采用归纳矩阵补全方法对个体化突变基因进行优先排序。然而，IMCDriver利用已知的泛癌驱动基因作为预测个体化驱动基因的参考信息，由于缺乏可用的成熟的癌症组织特异性驱动基因信息，这可能会影响个体化驱动基因预测的准确性。

发明内容

本发明的内容是提供一种基于半监督图神经网络的个体驱动基因预测方法，其能够针对癌症个体患者的基因组组学数据(即基因表达数据和单核苷酸变异(SNVs)数据)，利用有限的癌症组织特异性驱动基因对个体化驱动基因进行优先排序。

根据本发明的一种基于半监督图神经网络的个体驱动基因预测方法，其包括以下步骤：

1)利用个体患者基因组数据构建个体化基因交互网络PGIN；

2)用标签重用策略训练图注意网络GAT，识别个体化驱动基因，具体为：

a、通过将邻接矩阵、初始节点特征和节点标签作为输入的初始GAT模型获得初始预测标签；

b、在GAT上应用了标签重利用策略预测癌症驱动基因；

c、对基因进行投票，并对基因得分进行排序，以获得个体患者的基因排序。

作为优选，步骤1)中，采用癌症基因组图谱TCGA数据库中乳腺浸润性癌BRCA以及肺癌个体病人的基因组组学数据构建PGIN，肺癌个体病人的基因组组学数据包括肺腺癌LUAD和肺鳞状细胞癌LUSC；使用Paired-SSN方法对BRCA、LUSC和LUAD数据的基因表达和SNV突变数据集进行分析，Paired-SSN方法通过整合基因体细胞突变数据、个体患者基因表达数据和已知的人类基因相互作用网络数据来构建个体患者的PGIN。

作为优选，Paired-SSN方法整合基因突变数据、个体化基因表达数据和网络拓扑信息构建PGIN；单个病人k的PGIN包含邻接矩阵A^{Patient k}和特征矩阵

其中N为PGIN网络中基因数量；基因i的特征用以下公式计算：

其中，Norm表示最小-最大归一化函数；G(i)和G(j)分别表示突变基因i和基因j的个体癌症集合；

是有n个参考样本的参考网络中基因i和基因j之间的PCC，

是个体病人k有一个额外样本的扰动网络中的PCC；N(i)表示PGIN中节点i的相邻节点集。

作为优选，GAT为：

给定PGIN一个图表示G＝(V，E)，其中V＝{v₁，v₂，...，v_N}为PGIN节点的集合，E为PGIN边的集合，分别将A和h＝{h₁，h₂，...，h_N}，

表示为邻接矩阵和节点特征，其中N为节点数，F为节点特征的维数；标签矩阵Y＝{y₁，y₂，...，y_N}，

C是类的数量；假设每个节点具有一个特征向量h_i和标签y_i，对于与图G相关数据集D＝{v_i，h_i，y_i}，都有训练集D^Train和测试集D^Test；训练GAT的目的是预测未标记节点的标签；

GAT预测基因标签包括两个方面：一个是具有图注意层的特征表示，另一个是驱动基因的标签预测；

特征表示：图注意层的输入是一组节点特征h＝{h₁，h₂，...，h_N}，

输出是一组新的学习节点特征h′＝{h′₁，h′₂，...，h′_N}，

GAT模型在GCN的基础上进行改进，结合注意力机制GAT，注意力机制GAT为不同节点分配不同权重，在训练时依赖于成对的相邻节点，而不依赖具体的网络结构.GAT假设图中包含N个节点，则输入网络的节点向量记作:h＝{h₁，h₂，…，h_N}，h_i∈R^F，图注意力网络的输出向量记作:h'＝{h_1',h_2',…,h_N'},h_i'∈R^F；模型在计算节点间的信息聚合时引入了自注意力机制，对应的计算公式为

e_ij＝a(W_h，W_j)

其中，e_ij表示节点j对于节点i的重要性，并且节点i必须是节点j的一阶邻居，在计算节点间的注意力得分时则使用masked attention实现，上述对于邻居节点必须为一阶邻居的假设要求；

设节点i有4个一阶邻居节点，即：h_j1，h_j2，h_j3，h_j4为4个一阶邻居节点对应的特征向量，a_ij1，a_ij2，a_ij3，a_ij4为经过注意力机制计算后对应的分值；计算注意力分值的公式如下：

a_i，j＝softmax(e_ij)

注意力机制是通过单层前馈神经网络来实现，其中激活函数使用LeakyReLU函数，进而计算注意力分值的公式扩展为：

其中，β^T是前馈神经网络的可训练参数；W是可训练的参数；GAT中加入多头注意力机制，经过K头注意力机制计算后的特征向量进行拼接后，对应的输出特征向量表达如下：

采用取平均的方式计算用于预测最后一层的特征向量，则经过多头注意力机制计算的最后一层输出为：

如果GAT网络的最终层是由多头注意完成的，节点表示是通过平均多个注意的特征生成的；

其中

为由第k个注意机制计算出的归一化注意系数，W^k为对应的输入线性变换的权重矩阵，

癌症驱动基因标签预测：在输出层，采用softmax分类器，将经过GAT模型计算后的向量记作H，并输入到分类器中，对应的公式如下：

Y＝softmax(H)

式中

为从图注意层学习到的特征向量，N为PGIN中的节点数，C为标签数；在这个半监督的节点分类任务中，所有标记的节点都被用于评估交叉熵误差。

作为优选，步骤b中，标签重利用策略具体为：将PGIN的邻接矩阵A,PGIN中的初始节点特征h和节点标签Y作为初始GAT模型的输入，用于标签重利用策略的迭代过程，从而获得初始预测标签；然后标签重利用策略迭代地将前一次迭代的预测软标签作为GAT在当前迭代中的特征矩阵，在每个迭代期间，标签重利用策略会分解D_train为n个随机子数据集

对于其中一个子数据集，将其真实标签作为当前迭代的标签矩阵Y，并将其与其他子数据集上一次迭代的预测标签

连接成一个生成特征；对所有子数据集进行相同的操作，获得所有生成特征，并在每次迭代过程不断更新这些特征，同时利用新的预测标签进行新的特征；所有生成的特征都与初始特征连接起来，构造每次迭代过程的增广特征矩阵；最后，将迭代过程对应的增广特征矩阵作为模型的训练特征，输出所有迭代的预测标签。

作为优选，在每次迭代中，通过使用5折交叉验证，训练GAT模型预测驱动基因；对于5折交叉验证策略，所有的基因被划分为5个大小大致相等的不重叠的子集；依次选取这5个子集中的一个作为测试集，并使用其他4个子集作为训练集；这个过程重复了5次，直到所有的基因被依次测试；如果一个被测试基因在一次迭代过程中被预测为正样本，那么该基因得到1分；否则，这个基因得到0分。

作为优选，步骤3)中，应用正则化策略来克服过平滑和过拟合的问题，正则化策略即dropout，DropEdge和DropatAttention；Dropout通过随机设置一定数量的节点特征为零来干扰特征矩阵，从而减少过拟合的影响；DropEdge试图随机删除原始图中固定数量的边，减轻过拟合和过平滑；DropatAttention关注正则化注意权重，并通过随机设置一定数量的注意权重为零来减少过拟合。

作为优选，应用类加权损失函数解决PGIN中存在长尾标签分布的问题；类交叉熵损失函数引入一个归一化权重因子，α_y＝1/E_ny，

其中C是类的数量(这里是C＝2)，E_ny是y类的有效基因数E_ny。定义y类的有效样本数为

其中n_y为y类的基因数，N为PGIN中的基因数。类别加权损失函数为：

其中，p＝{p₁，p₂，...，p_i，...，p_N}，p_i∈[0，1]表示模型的类概率；L(p，y)是softmax交叉熵损失函数。

本发明将个体化的癌症驱动基因预测问题转换为半监督学习分类任务，并开发了一种基于半监督学习图神经网络的个体化癌症驱动基因预测方法(即PersonalizedGNN)：收集已知癌症组织特异性驱动基因和与癌症无关基因，作为正样本和负样本，采用半监督图注意力网络模型和标签重利用方法，预测个体驱动基因。在癌症基因组图谱(TCGA)的乳腺癌和肺癌数据集上，验证了相比其他癌症驱动基因预测方法，PersonalizedGNN在识别癌症驱动基因方面表现最好。而且实验结果表明，与其他图神经网络相比，图注意力网络模型和标签重利用方法可以更有效地提升癌症驱动基因预测性能。

附图说明

图1为实施例中PersonalizedGNN框架示意图；

图2为实施例中标签重利用策略示意图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例

如图1所示，本实施例提供了一种基于半监督图神经网络的个体驱动基因预测方法，其包括以下步骤：

1)利用个体患者基因组数据构建个体化基因交互网络PGIN；

步骤1)中，采用癌症基因组图谱TCGA数据库中乳腺浸润性癌BRCA以及肺癌个体病人的基因组组学数据构建PGIN，肺癌个体病人的基因组组学数据包括肺腺癌LUAD和肺鳞状细胞癌LUSC；使用Paired-SSN方法对BRCA、LUSC和LUAD数据的基因表达和SNV突变数据集进行分析，Paired-SSN方法通过整合基因体细胞突变数据、个体患者基因表达数据和已知的人类基因相互作用网络数据来构建个体患者的PGIN。

Paired-SSN方法整合基因突变数据、个体化基因表达数据和网络拓扑信息构建PGIN；单个病人k的PGIN包含邻接矩阵A^{Patient k}和特征矩阵

其中N为PGIN网络中基因数量；基因i的特征用以下公式计算：

是有n个参考样本的参考网络中基因i和基因j之间的PCC，

对于BRCA数据，个体病人的PGIN共包含约1700个基因，而LUSC和LUAD数据的个体病人PGIN均包含约2100个基因。为了简化网络，去掉了PGIN中的自环交互作用。为了在PGIN中形成一个正样本集，从IntOFen数据集分别提取36、63、64个BRCA、LUAD和LUSC的癌症组织特异性驱动基因。通过将这些基因与每个患者的PGIN重叠，分别获得了约20、30和30个正样本基因。

对于PGIN中的负样本集，使用了一个包含4058个非癌症驱动基因的非癌症驱动基因列表。通过将这些非癌症驱动基因与PGIN重叠，分别获得了约200、400和400个BRCA、LUAD和LUSC的PGIN负样本基因。

a、通过将邻接矩阵、初始节点特征和节点标签作为输入的初始GAT模型获得初始预测标签；通过对PGIN中邻域的边权值求和，提取基因的初始节点特征；

b、在GAT上应用了标签重利用策略预测癌症驱动基因；

GAT为：

e_ij＝a(W_h，W_j) (6)

a_i，j＝softmax(e_ij) (7)

其中

Y＝softmax(H) (11)

式中

为从图注意层学习到的特征向量，N为PGIN中的节点数，C为标签数(这里为C＝2)；在这个半监督的节点分类任务中，所有标记的节点都被用于评估交叉熵误差。

步骤b中，如图2所示，标签重利用策略具体为：

为了解决PGIN中特征维数的不足，我们在GAT上使用了标签重利用策略，这是一种数据增强方法，使GAT在半监督学习过程中获得理想性能，标签重利用策略，主要思想是“标签重新利用作为特征”。首先，将PGIN的邻接矩阵A,PGIN中的初始节点特征h和节点标签Y作为初始GAT模型的输入，用于标签重利用策略的迭代过程，从而获得初始预测标签；然后标签重利用策略迭代地将前一次迭代的预测软标签作为GAT在当前迭代中的特征矩阵，在每个迭代期间，标签重利用策略会分解D_train为n个随机子数据集

(这里n＝3)；对于其中一个子数据集，将其真实标签作为当前迭代的标签矩阵Y，并将其与其他子数据集上一次迭代的预测标签

Label重用策略的伪代码如下所示。

评估指标

由于没有已知的个体化驱动基因的标准，不能根据单个病人的排序基因排名评分来直接评估模型的性能。在这里，拟使用目前个体化癌症驱动程序预测方法中所采用的常见策略。也就是说，拟计算每个癌症数据中所有个体病人的平均基因排序得分，并得到癌症数据的基因排序结果。基于癌症数据的基因排序结果，使用前k(k＝1,2,3，...，30)排名预测驱动基因中已知的具有正样本标签的预测驱动基因的比例作为精度来衡量模型的性能。

p_i表示已知的预测驱动基因中有正样本标签的驱动基因的比例。

在每次迭代中，通过使用5折交叉验证，训练GAT模型预测驱动基因；对于5折交叉验证策略，所有的基因被划分为5个大小大致相等的不重叠的子集；依次选取这5个子集中的一个作为测试集，并使用其他4个子集作为训练集；这个过程重复了5次，直到所有的基因被依次测试；如果一个被测试基因在一次迭代过程中被预测为正样本，那么该基因得到1分；否则，这个基因得到0分。

步骤3)中，应用正则化策略来克服过平滑和过拟合的问题，正则化策略即dropout，DropEdge和DropatAttention；Dropout通过随机设置一定数量的节点特征为零来干扰特征矩阵，从而减少过拟合的影响；DropEdge试图随机删除原始图中固定数量的边，减轻过拟合和过平滑；DropatAttention关注正则化注意权重，并通过随机设置一定数量的注意权重为零来减少过拟合。

应用类加权损失函数解决PGIN中存在长尾标签分布的问题；类交叉熵损失函数引入一个归一化权重因子，α_y＝1/E_ny，

其中n_y为y类的基因数，N为PGIN中的基因数。类别加权损失函数为:

实验参数设置

PersonalizedGNN算法是在Pytorch框架下实现的。选择Adam作为模型的优化器。所有算法训练过程使用的是具有参数AMD Ryzen 7 5800X CPU,32.0GB RAM,NVIDIA GTX3090GPU的计算机。PersonalizedGNN参数设置如下:神经网络层数为3，每层节点数为750，学习率α为α＝0.02，权值衰减w_d为w_d＝1e-7。设置最终分类层和其他层的注意头数为K₁＝K₂＝5.。此外，在GAT模型训练过程中，Dropout的系数为C₁＝0.75,，而DropEdge和dropatattention的系数为C₂＝C₃＝0.25。

不同癌症驱动基因识别算法性能对比

为了评估PersonalizedGNN的性能，比较了PersonalizedGNN与其他方法的驱动基因预测性能，包括个体患者驱动基因预测方法(PRODIGY，IMCDriver，PNC，SCS和群体患者队列驱动基因预测方法(DriverML和ActivveDrier)。对于个体患者驱动基因预测方法(PRODIGY、IMCDriver、PNC和SCS)，使用了与PersonalizedGNN相同的基因表达数据。由于IMCDriver是一种个体癌症驱动基因预测的监督学习方法，还分别使用泛癌症驱动基因和癌症组织特异性驱动基因(称为IMCDriver_CGC和IMCDriver_TissueSpecificCGC)预测癌症驱动基因。对于大型患者队列的方法，从DriverDBv2数据库中获得BRCA、LUSC和LUAD的驱动基因。表1给出了排名前30位基因的平均准确率的结果。从表1的结果可以看出，PersonalizedGNN对BRCA、LUAD和LUSC癌症的驱动基因预测效果优于其他方法。

表1在BRCA、LUAD和LUSC数据上，PersonalizedGNN和其他方法平均准确率对比。

为了进一步证明PersonalizedGNN在预测癌症驱动基因方面的性能，还将PersonalizedGNN与其他GNN方法(即ChebNet、GraphSAGE、GCN和GAT)进行了比较。为了公平，所有方法都使用相同的输入数据。此外，所有的神经网络具有相同的层数，每一层都有相同的节点数目。在表2中，给出了不同GNN方法的前k(k＝1,2，...，30)驱动基因预测排名准确率和前30驱动基因预测平均准确率。从表2中可以看出PersonalizedGNN优于ChebNet、GraphSAGE和GCN、GAT和GAT。这些结果表明，PersonalizedGNN可以提高对BRCA、LUSC和LUAD上的癌症驱动基因的预测性能。

表2PersonalizedGNN和其他GNN模型平均精度性能比较。

PairedSSN策略有效性验证

PersonalizedGNN的一个特点是，使用PairedSSN构建PGIN。为了验证PairedSSN对PersonalizedGNN的影响，将PersonalizedGNN与SSN方法进行了比较。为了获得SSN方法的结果，对于单个患者，首先去除该患者的正常样本，并使用所有其他正常样本构建参考网络。然后，仅使用该患者的肿瘤样本，利用SSN方法对该个体患者构建个体化的加权基因相互作用网络。

其他计算边权的公式与PairedSSN方法(材料和方法部分)步骤相同。最后，在BRCA、LUAD和LUSC癌症数据集上，获得SSN的癌症驱动基因预测结果。此外，生成10个拓扑结构度分布一致的随机网络，从而比较了PersonalizedGNN与随机网络预测性能。不同网络构建方法(PairedSSN、SSN以及随机网络)的预测结果如表3所示。从表3，可以看到，在这些癌症数据集上，PairedSSN方法的精度高于SSN方法和随机网络。这些结果表明，PairedSSN方法可以有效提高PersonalizedGNN的预测性能。

表3在BRCA、LUAD和LUSC癌症数据集上，网络构建方法、负样本选择、特征选择策略、正则化策略和类加权损失函数的平均准确率。

负样本选择对PersonalizedGNN有效性验证

为了验证负样本集合的有效性，首先从未标记基因中随机选择和原始负样本集合具有相同数量基因的样本集合。然后比较了原始负样本集合和随机负样本集合对BRCA、LUSC和LUAD的预测结果。排名前k(k＝1,2，...，30)基因的预测结果如表3所示。从表3可以看出，负样本集合的准确率远远高于随机负样本集合。这些结果表明，负样本集合可以有效地训练和验证PersonalizedGNN模型。

特征选择策略有效性验证

PersonalizedGNN的一个关键输入是，使用PGIN的边权值来提取基因特征，而不是传统的基因组学特征。为了验证特征选择在PersonalizedGNN中的有效性，将肿瘤样本的基因表达值作为个体化基因特征(即个体化基因表达特征)，并将其与PersonalizedGNN的性能进行比较。此外，还比较了PersonalizedGNN与特定癌症类型多组学生物学特征(即基因启动子区域的DNA甲基化特征、基因单核苷酸变异(SNVs)的基因突变特征、基因拷贝数变异和基因表达特征)的预测准确率。BRCA，LUSC和LUAD基因的多组学特征直接从现参考文献获得。前k(k＝1,2，...，30)排名基因准确率的比较结果如表3所示。从表3中可以看出，基因特征选择的准确率远远高于个体化基因表达特征和多组学生物学特征结果。这些结果表明，PGIN中基因的边权重可以提高对癌症驱动因素的识别。

正则化策略有效性验证

为了验证正则化策略(即Dropout、Dropedge和DropatAttention)的有效性，将PersonalizedGNN与没有使用这些正则化策略的PersonalizedGNN的预测结果进行了比较。排名前k(k＝1,2，...，30)排序基因的准确率，如表3所示。从表3中可以看出，PersonalizedGNN的准确率远远高于没有使用这两种正则化策略的PersonalizedGNN。这些结果表明，正则化策略可以有效地训练和验证PersonalizedGNN模型。

分类加权损失函数的有效性验证

在训练PersonalizedGNN的过程中，应用类加权损失函数来解决标签分布不平衡。为了验证其识别癌症驱动基因的有效性，将使用类加权损失函数和不使用类加权损失函数的PersonalizedGNN预测结果进行了比较。排名前k(k＝1,2，...，30)排序基因的准确率，如表3所示。从表3中可以看出，PersonalizedGNN的精度远远高于没有类加权损失函数的PersonalizedGNN。这些结果表明，有类加权损失函数可以有效地提升PersonalizedGNN模型的预测性能。

结论

在本实施例中，通过将个体化的癌症驱动基因预测问题转换为半监督学习分类任务，提出了一种半监督图神经网络学习方法PersonalizedGNN。这是第一次尝试应用GNN方法来识别个体化的驱动基因，为识别个体化驱动基因提供了一个新的视角。比较了PersonalizedGNN与其他先进的方法在BRCA，LUSC，LUAD数据集。实验表明，PersonalizedGNN在识别癌症组织特异性驱动基因方面优于其他现有方法。由于PersonalizedGNN的性能得益于基于GNN的半监督学习方法，未来使用基于个体化异质组学数据的异构图神经网络可能有助于识别个体化驱动基因。此外，将PersonalizedGNN扩展到非编码驱动基因识别，也是未来另一个重要研究方向。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于半监督图神经网络的个体驱动基因预测方法，其特征在于：包括以下步骤：

1)利用个体患者基因组数据构建个体化基因交互网络PGIN；

b、在GAT上应用了标签重利用策略预测癌症驱动基因；

2.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法，其特征在于：步骤1)中，采用癌症基因组图谱TCGA数据库中乳腺浸润性癌BRCA以及肺癌个体病人的基因组组学数据构建PGIN，肺癌个体病人的基因组组学数据包括肺腺癌LUAD和肺鳞状细胞癌LUSC；使用Paired-SSN方法对BRCA、LUSC和LUAD数据的基因表达和SNV突变数据集进行分析，Paired-SSN方法通过整合基因体细胞突变数据、个体患者基因表达数据和已知的人类基因相互作用网络数据来构建个体患者的PGIN。

3.根据权利要求2所述的一种基于半监督图神经网络的个体驱动基因预测方法，其特征在于：Paired-SSN方法整合基因突变数据、个体化基因表达数据和网络拓扑信息构建PGIN；单个病人k的PGIN包含邻接矩阵A^Patientk和特征矩阵

其中N为PGIN网络中基因数量；基因i的特征用以下公式计算：

是有n个参考样本的参考网络中基因i和基因j之间的PCC，

4.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法，其特征在于：GAT为：

给定PGIN一个图表示G＝(V，E)，其中V＝{v₁，v₂，...，v_N}为PGIN节点的集合，E为PGIN边的集合，分别将A和

表示为邻接矩阵和节点特征，其中N为节点数，F为节点特征的维数；标签矩阵

特征表示：图注意层的输入是一组节点特征

输出是一组新的学习节点特征

GAT模型在GCN的基础上进行改进，结合注意力机制GAT，注意力机制GAT为不同节点分配不同权重，在训练时依赖于成对的相邻节点，而不依赖具体的网络结构.GAT假设图中包含N个节点，则输入网络的节点向量记作:h＝{h₁，h₂，…，h_N}，h_i∈R^F，图注意力网络的输出向量记作:h'＝{h₁',h₂',…,h_N'},h_i'∈R^F；模型在计算节点间的信息聚合时引入了自注意力机制，对应的计算公式为

e_ij＝a(W_h，W_j)

设节点i有4个一阶邻居节点，即：h_j1，h_j2，h_j3，h_j4为4个一阶邻居节点对应的特征向量，aij1，aij2，aij3，aij4为经过注意力机制计算后对应的分值；计算注意力分值的公式如下：

a_i，j＝softmax(e_ij)

其中

Y＝softmax(H)

式中

5.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法，其特征在于：步骤b中，标签重利用策略具体为：将PGIN的邻接矩阵A,PGIN中的初始节点特征h和节点标签Y作为初始GAT模型的输入，用于标签重利用策略的迭代过程，从而获得初始预测标签；然后标签重利用策略迭代地将前一次迭代的预测软标签作为GAT在当前迭代中的特征矩阵，在每个迭代期间，标签重利用策略会分解D_train为n个随机子数据集

6.根据权利要求5所述的一种基于半监督图神经网络的个体驱动基因预测方法，其特征在于：在每次迭代中，通过使用5折交叉验证，训练GAT模型预测驱动基因；对于5折交叉验证策略，所有的基因被划分为5个大小大致相等的不重叠的子集；依次选取这5个子集中的一个作为测试集，并使用其他4个子集作为训练集；这个过程重复了5次，直到所有的基因被依次测试；如果一个被测试基因在一次迭代过程中被预测为正样本，那么该基因得到1分；否则，这个基因得到0分。

7.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法，其特征在于：步骤3)中，应用正则化策略来克服过平滑和过拟合的问题，正则化策略即dropout，DropEdge和DropatAttention；Dropout通过随机设置一定数量的节点特征为零来干扰特征矩阵，从而减少过拟合的影响；DropEdge试图随机删除原始图中固定数量的边，减轻过拟合和过平滑；DropatAttention关注正则化注意权重，并通过随机设置一定数量的注意权重为零来减少过拟合。

8.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法，其特征在于：应用类加权损失函数解决PGIN中存在长尾标签分布的问题；类交叉熵损失函数引入一个归一化权重因子，α_y＝1/E_ny，

其中C是类的数量，E_ny是y类的有效基因数E_ny；定义y类的有效样本数为

β＝N/(N-1)，其中n_y为y类的基因数，N为PGIN中的基因数；类别加权损失函数为：