CN115019891A - 一种基于半监督图神经网络的个体驱动基因预测方法 - Google Patents
一种基于半监督图神经网络的个体驱动基因预测方法 Download PDFInfo
- Publication number
- CN115019891A CN115019891A CN202210645490.5A CN202210645490A CN115019891A CN 115019891 A CN115019891 A CN 115019891A CN 202210645490 A CN202210645490 A CN 202210645490A CN 115019891 A CN115019891 A CN 115019891A
- Authority
- CN
- China
- Prior art keywords
- gene
- node
- pgin
- gat
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及基因数据分析技术领域,具体地说,设计一种基于半监督图神经网络的个体驱动基因预测方法,其包括以下步骤:1)利用个体患者基因组数据构建个体化基因交互网络PGIN;2)用标签重用策略训练图注意网络GAT,识别个体化驱动基因,具体为:a、通过将邻接矩阵、初始节点特征和节点标签作为输入的初始GAT模型获得初始预测标签;b、在GAT上应用了标签重利用策略预测癌症驱动基因;c、对基因进行投票,并对基因得分进行排序,以获得个体患者的基因排序。本发明能较佳地进行个体驱动基因预测。
Description
技术领域
本发明涉及基因数据分析技术领域,具体地说,设计一种基于半监督图神经网络的个体驱动基因预测方法。
背景技术
癌症是由少量的基因组和转录组突变基因(即驱动基因)驱动的,这有助于理解在癌症精确医疗中治疗个体患者的分子机制癌症已成为威胁我国居民健康重大公共卫生问题之一。
在癌症基因组数据分析中,目前个体患者驱动基因预测方法主要可分为两种类型,即无监督学习方法和有监督学习方法。一方面,无监督学习方法主要利用网络技术,包括结构网络控制原理、重启随机游走(RWR)方法、网络扩散方法和斯坦纳树方法来对个体化驱动基因进行优先排序。虽然这些方法可以有效预测一些个体化的癌症驱动基因,但它们通常忽略现有的已知癌症驱动基因信息,容易出现假阳性,影响预测精度。另一方面,IMCDriver作为目前唯一的一种监督学习方法,主要是将成熟的驱动基因作为监督参考信息,采用归纳矩阵补全方法对个体化突变基因进行优先排序。然而,IMCDriver利用已知的泛癌驱动基因作为预测个体化驱动基因的参考信息,由于缺乏可用的成熟的癌症组织特异性驱动基因信息,这可能会影响个体化驱动基因预测的准确性。
发明内容
本发明的内容是提供一种基于半监督图神经网络的个体驱动基因预测方法,其能够针对癌症个体患者的基因组组学数据(即基因表达数据和单核苷酸变异(SNVs)数据),利用有限的癌症组织特异性驱动基因对个体化驱动基因进行优先排序。
根据本发明的一种基于半监督图神经网络的个体驱动基因预测方法,其包括以下步骤:
1)利用个体患者基因组数据构建个体化基因交互网络PGIN;
2)用标签重用策略训练图注意网络GAT,识别个体化驱动基因,具体为:
a、通过将邻接矩阵、初始节点特征和节点标签作为输入的初始GAT模型获得初始预测标签;
b、在GAT上应用了标签重利用策略预测癌症驱动基因;
c、对基因进行投票,并对基因得分进行排序,以获得个体患者的基因排序。
作为优选,步骤1)中,采用癌症基因组图谱TCGA数据库中乳腺浸润性癌BRCA以及肺癌个体病人的基因组组学数据构建PGIN,肺癌个体病人的基因组组学数据包括肺腺癌LUAD和肺鳞状细胞癌LUSC;使用Paired-SSN方法对BRCA、LUSC和LUAD数据的基因表达和SNV突变数据集进行分析,Paired-SSN方法通过整合基因体细胞突变数据、个体患者基因表达数据和已知的人类基因相互作用网络数据来构建个体患者的PGIN。
作为优选,Paired-SSN方法整合基因突变数据、个体化基因表达数据和网络拓扑信息构建PGIN;单个病人k的PGIN包含邻接矩阵APatient k和特征矩阵其中N为PGIN网络中基因数量;基因i的特征用以下公式计算:
其中,Norm表示最小-最大归一化函数;G(i)和G(j)分别表示突变基因i和基因j的个体癌症集合;是有n个参考样本的参考网络中基因i和基因j之间的PCC,是个体病人k有一个额外样本的扰动网络中的PCC;N(i)表示PGIN中节点i的相邻节点集。
作为优选,GAT为:
给定PGIN一个图表示G=(V,E),其中V={v1,v2,...,vN}为PGIN节点的集合,E为PGIN边的集合,分别将A和h={h1,h2,...,hN},表示为邻接矩阵和节点特征,其中N为节点数,F为节点特征的维数;标签矩阵Y={y1,y2,...,yN},C是类的数量;假设每个节点具有一个特征向量hi和标签yi,对于与图G相关数据集D={vi,hi,yi},都有训练集DTrain和测试集DTest;训练GAT的目的是预测未标记节点的标签;
GAT预测基因标签包括两个方面:一个是具有图注意层的特征表示,另一个是驱动基因的标签预测;
特征表示:图注意层的输入是一组节点特征h={h1,h2,...,hN},输出是一组新的学习节点特征h′={h′1,h′2,...,h′N},GAT模型在GCN的基础上进行改进,结合注意力机制GAT,注意力机制GAT为不同节点分配不同权重,在训练时依赖于成对的相邻节点,而不依赖具体的网络结构.GAT假设图中包含N个节点,则输入网络的节点向量记作:h={h1,h2,…,hN},hi∈RF,图注意力网络的输出向量记作:h'={h1',h2',…,hN'},hi'∈RF;模型在计算节点间的信息聚合时引入了自注意力机制,对应的计算公式为
eij=a(Wh,Wj)
其中,eij表示节点j对于节点i的重要性,并且节点i必须是节点j的一阶邻居,在计算节点间的注意力得分时则使用masked attention实现,上述对于邻居节点必须为一阶邻居的假设要求;
设节点i有4个一阶邻居节点,即:hj1,hj2,hj3,hj4为4个一阶邻居节点对应的特征向量,aij1,aij2,aij3,aij4为经过注意力机制计算后对应的分值;计算注意力分值的公式如下:
ai,j=softmax(eij)
注意力机制是通过单层前馈神经网络来实现,其中激活函数使用LeakyReLU函数,进而计算注意力分值的公式扩展为:
其中,βT是前馈神经网络的可训练参数;W是可训练的参数;GAT中加入多头注意力机制,经过K头注意力机制计算后的特征向量进行拼接后,对应的输出特征向量表达如下:
采用取平均的方式计算用于预测最后一层的特征向量,则经过多头注意力机制计算的最后一层输出为:
如果GAT网络的最终层是由多头注意完成的,节点表示是通过平均多个注意的特征生成的;
癌症驱动基因标签预测:在输出层,采用softmax分类器,将经过GAT模型计算后的向量记作H,并输入到分类器中,对应的公式如下:
Y=softmax(H)
作为优选,步骤b中,标签重利用策略具体为:将PGIN的邻接矩阵A,PGIN中的初始节点特征h和节点标签Y作为初始GAT模型的输入,用于标签重利用策略的迭代过程,从而获得初始预测标签;然后标签重利用策略迭代地将前一次迭代的预测软标签作为GAT在当前迭代中的特征矩阵,在每个迭代期间,标签重利用策略会分解Dtrain为n个随机子数据集对于其中一个子数据集,将其真实标签作为当前迭代的标签矩阵Y,并将其与其他子数据集上一次迭代的预测标签连接成一个生成特征;对所有子数据集进行相同的操作,获得所有生成特征,并在每次迭代过程不断更新这些特征,同时利用新的预测标签进行新的特征;所有生成的特征都与初始特征连接起来,构造每次迭代过程的增广特征矩阵;最后,将迭代过程对应的增广特征矩阵作为模型的训练特征,输出所有迭代的预测标签。
作为优选,在每次迭代中,通过使用5折交叉验证,训练GAT模型预测驱动基因;对于5折交叉验证策略,所有的基因被划分为5个大小大致相等的不重叠的子集;依次选取这5个子集中的一个作为测试集,并使用其他4个子集作为训练集;这个过程重复了5次,直到所有的基因被依次测试;如果一个被测试基因在一次迭代过程中被预测为正样本,那么该基因得到1分;否则,这个基因得到0分。
作为优选,步骤3)中,应用正则化策略来克服过平滑和过拟合的问题,正则化策略即dropout,DropEdge和DropatAttention;Dropout通过随机设置一定数量的节点特征为零来干扰特征矩阵,从而减少过拟合的影响;DropEdge试图随机删除原始图中固定数量的边,减轻过拟合和过平滑;DropatAttention关注正则化注意权重,并通过随机设置一定数量的注意权重为零来减少过拟合。
作为优选,应用类加权损失函数解决PGIN中存在长尾标签分布的问题;类交叉熵损失函数引入一个归一化权重因子,αy=1/Eny,其中C是类的数量(这里是C=2),Eny是y类的有效基因数Eny。定义y类的有效样本数为其中ny为y类的基因数,N为PGIN中的基因数。类别加权损失函数为:
其中,p={p1,p2,...,pi,...,pN},pi∈[0,1]表示模型的类概率;L(p,y)是softmax交叉熵损失函数。
本发明将个体化的癌症驱动基因预测问题转换为半监督学习分类任务,并开发了一种基于半监督学习图神经网络的个体化癌症驱动基因预测方法(即PersonalizedGNN):收集已知癌症组织特异性驱动基因和与癌症无关基因,作为正样本和负样本,采用半监督图注意力网络模型和标签重利用方法,预测个体驱动基因。在癌症基因组图谱(TCGA)的乳腺癌和肺癌数据集上,验证了相比其他癌症驱动基因预测方法,PersonalizedGNN在识别癌症驱动基因方面表现最好。而且实验结果表明,与其他图神经网络相比,图注意力网络模型和标签重利用方法可以更有效地提升癌症驱动基因预测性能。
附图说明
图1为实施例中PersonalizedGNN框架示意图;
图2为实施例中标签重利用策略示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例
如图1所示,本实施例提供了一种基于半监督图神经网络的个体驱动基因预测方法,其包括以下步骤:
1)利用个体患者基因组数据构建个体化基因交互网络PGIN;
步骤1)中,采用癌症基因组图谱TCGA数据库中乳腺浸润性癌BRCA以及肺癌个体病人的基因组组学数据构建PGIN,肺癌个体病人的基因组组学数据包括肺腺癌LUAD和肺鳞状细胞癌LUSC;使用Paired-SSN方法对BRCA、LUSC和LUAD数据的基因表达和SNV突变数据集进行分析,Paired-SSN方法通过整合基因体细胞突变数据、个体患者基因表达数据和已知的人类基因相互作用网络数据来构建个体患者的PGIN。
Paired-SSN方法整合基因突变数据、个体化基因表达数据和网络拓扑信息构建PGIN;单个病人k的PGIN包含邻接矩阵APatient k和特征矩阵其中N为PGIN网络中基因数量;基因i的特征用以下公式计算:
其中,Norm表示最小-最大归一化函数;G(i)和G(j)分别表示突变基因i和基因j的个体癌症集合;是有n个参考样本的参考网络中基因i和基因j之间的PCC,是个体病人k有一个额外样本的扰动网络中的PCC;N(i)表示PGIN中节点i的相邻节点集。
对于BRCA数据,个体病人的PGIN共包含约1700个基因,而LUSC和LUAD数据的个体病人PGIN均包含约2100个基因。为了简化网络,去掉了PGIN中的自环交互作用。为了在PGIN中形成一个正样本集,从IntOFen数据集分别提取36、63、64个BRCA、LUAD和LUSC的癌症组织特异性驱动基因。通过将这些基因与每个患者的PGIN重叠,分别获得了约20、30和30个正样本基因。
对于PGIN中的负样本集,使用了一个包含4058个非癌症驱动基因的非癌症驱动基因列表。通过将这些非癌症驱动基因与PGIN重叠,分别获得了约200、400和400个BRCA、LUAD和LUSC的PGIN负样本基因。
2)用标签重用策略训练图注意网络GAT,识别个体化驱动基因,具体为:
a、通过将邻接矩阵、初始节点特征和节点标签作为输入的初始GAT模型获得初始预测标签;通过对PGIN中邻域的边权值求和,提取基因的初始节点特征;
b、在GAT上应用了标签重利用策略预测癌症驱动基因;
c、对基因进行投票,并对基因得分进行排序,以获得个体患者的基因排序。
GAT为:
给定PGIN一个图表示G=(V,E),其中V={v1,v2,...,vN}为PGIN节点的集合,E为PGIN边的集合,分别将A和h={h1,h2,...,hN},表示为邻接矩阵和节点特征,其中N为节点数,F为节点特征的维数;标签矩阵Y={y1,y2,...,yN},C是类的数量;假设每个节点具有一个特征向量hi和标签yi,对于与图G相关数据集D={vi,hi,yi},都有训练集DTrain和测试集DTest;训练GAT的目的是预测未标记节点的标签;
GAT预测基因标签包括两个方面:一个是具有图注意层的特征表示,另一个是驱动基因的标签预测;
特征表示:图注意层的输入是一组节点特征h={h1,h2,...,hN},输出是一组新的学习节点特征h′={h′1,h′2,...,h′N},GAT模型在GCN的基础上进行改进,结合注意力机制GAT,注意力机制GAT为不同节点分配不同权重,在训练时依赖于成对的相邻节点,而不依赖具体的网络结构.GAT假设图中包含N个节点,则输入网络的节点向量记作:h={h1,h2,…,hN},hi∈RF,图注意力网络的输出向量记作:h'={h1',h2',…,hN'},hi'∈RF;模型在计算节点间的信息聚合时引入了自注意力机制,对应的计算公式为
eij=a(Wh,Wj) (6)
其中,eij表示节点j对于节点i的重要性,并且节点i必须是节点j的一阶邻居,在计算节点间的注意力得分时则使用masked attention实现,上述对于邻居节点必须为一阶邻居的假设要求;
设节点i有4个一阶邻居节点,即:hj1,hj2,hj3,hj4为4个一阶邻居节点对应的特征向量,aij1,aij2,aij3,aij4为经过注意力机制计算后对应的分值;计算注意力分值的公式如下:
ai,j=softmax(eij) (7)
注意力机制是通过单层前馈神经网络来实现,其中激活函数使用LeakyReLU函数,进而计算注意力分值的公式扩展为:
其中,βT是前馈神经网络的可训练参数;W是可训练的参数;GAT中加入多头注意力机制,经过K头注意力机制计算后的特征向量进行拼接后,对应的输出特征向量表达如下:
采用取平均的方式计算用于预测最后一层的特征向量,则经过多头注意力机制计算的最后一层输出为:
如果GAT网络的最终层是由多头注意完成的,节点表示是通过平均多个注意的特征生成的;
癌症驱动基因标签预测:在输出层,采用softmax分类器,将经过GAT模型计算后的向量记作H,并输入到分类器中,对应的公式如下:
Y=softmax(H) (11)
步骤b中,如图2所示,标签重利用策略具体为:
为了解决PGIN中特征维数的不足,我们在GAT上使用了标签重利用策略,这是一种数据增强方法,使GAT在半监督学习过程中获得理想性能,标签重利用策略,主要思想是“标签重新利用作为特征”。首先,将PGIN的邻接矩阵A,PGIN中的初始节点特征h和节点标签Y作为初始GAT模型的输入,用于标签重利用策略的迭代过程,从而获得初始预测标签;然后标签重利用策略迭代地将前一次迭代的预测软标签作为GAT在当前迭代中的特征矩阵,在每个迭代期间,标签重利用策略会分解Dtrain为n个随机子数据集(这里n=3);对于其中一个子数据集,将其真实标签作为当前迭代的标签矩阵Y,并将其与其他子数据集上一次迭代的预测标签连接成一个生成特征;对所有子数据集进行相同的操作,获得所有生成特征,并在每次迭代过程不断更新这些特征,同时利用新的预测标签进行新的特征;所有生成的特征都与初始特征连接起来,构造每次迭代过程的增广特征矩阵;最后,将迭代过程对应的增广特征矩阵作为模型的训练特征,输出所有迭代的预测标签。
Label重用策略的伪代码如下所示。
评估指标
由于没有已知的个体化驱动基因的标准,不能根据单个病人的排序基因排名评分来直接评估模型的性能。在这里,拟使用目前个体化癌症驱动程序预测方法中所采用的常见策略。也就是说,拟计算每个癌症数据中所有个体病人的平均基因排序得分,并得到癌症数据的基因排序结果。基于癌症数据的基因排序结果,使用前k(k=1,2,3,...,30)排名预测驱动基因中已知的具有正样本标签的预测驱动基因的比例作为精度来衡量模型的性能。
pi表示已知的预测驱动基因中有正样本标签的驱动基因的比例。
在每次迭代中,通过使用5折交叉验证,训练GAT模型预测驱动基因;对于5折交叉验证策略,所有的基因被划分为5个大小大致相等的不重叠的子集;依次选取这5个子集中的一个作为测试集,并使用其他4个子集作为训练集;这个过程重复了5次,直到所有的基因被依次测试;如果一个被测试基因在一次迭代过程中被预测为正样本,那么该基因得到1分;否则,这个基因得到0分。
步骤3)中,应用正则化策略来克服过平滑和过拟合的问题,正则化策略即dropout,DropEdge和DropatAttention;Dropout通过随机设置一定数量的节点特征为零来干扰特征矩阵,从而减少过拟合的影响;DropEdge试图随机删除原始图中固定数量的边,减轻过拟合和过平滑;DropatAttention关注正则化注意权重,并通过随机设置一定数量的注意权重为零来减少过拟合。
应用类加权损失函数解决PGIN中存在长尾标签分布的问题;类交叉熵损失函数引入一个归一化权重因子,αy=1/Eny,其中C是类的数量(这里是C=2),Eny是y类的有效基因数Eny。定义y类的有效样本数为 其中ny为y类的基因数,N为PGIN中的基因数。类别加权损失函数为:
其中,p={p1,p2,...,pi,...,pN},pi∈[0,1]表示模型的类概率;L(p,y)是softmax交叉熵损失函数。
实验参数设置
PersonalizedGNN算法是在Pytorch框架下实现的。选择Adam作为模型的优化器。所有算法训练过程使用的是具有参数AMD Ryzen 7 5800X CPU,32.0GB RAM,NVIDIA GTX3090GPU的计算机。PersonalizedGNN参数设置如下:神经网络层数为3,每层节点数为750,学习率α为α=0.02,权值衰减wd为wd=1e-7。设置最终分类层和其他层的注意头数为K1=K2=5.。此外,在GAT模型训练过程中,Dropout的系数为C1=0.75,,而DropEdge和dropatattention的系数为C2=C3=0.25。
不同癌症驱动基因识别算法性能对比
为了评估PersonalizedGNN的性能,比较了PersonalizedGNN与其他方法的驱动基因预测性能,包括个体患者驱动基因预测方法(PRODIGY,IMCDriver,PNC,SCS和群体患者队列驱动基因预测方法(DriverML和ActivveDrier)。对于个体患者驱动基因预测方法(PRODIGY、IMCDriver、PNC和SCS),使用了与PersonalizedGNN相同的基因表达数据。由于IMCDriver是一种个体癌症驱动基因预测的监督学习方法,还分别使用泛癌症驱动基因和癌症组织特异性驱动基因(称为IMCDriver_CGC和IMCDriver_TissueSpecificCGC)预测癌症驱动基因。对于大型患者队列的方法,从DriverDBv2数据库中获得BRCA、LUSC和LUAD的驱动基因。表1给出了排名前30位基因的平均准确率的结果。从表1的结果可以看出,PersonalizedGNN对BRCA、LUAD和LUSC癌症的驱动基因预测效果优于其他方法。
表1在BRCA、LUAD和LUSC数据上,PersonalizedGNN和其他方法平均准确率对比。
为了进一步证明PersonalizedGNN在预测癌症驱动基因方面的性能,还将PersonalizedGNN与其他GNN方法(即ChebNet、GraphSAGE、GCN和GAT)进行了比较。为了公平,所有方法都使用相同的输入数据。此外,所有的神经网络具有相同的层数,每一层都有相同的节点数目。在表2中,给出了不同GNN方法的前k(k=1,2,...,30)驱动基因预测排名准确率和前30驱动基因预测平均准确率。从表2中可以看出PersonalizedGNN优于ChebNet、GraphSAGE和GCN、GAT和GAT。这些结果表明,PersonalizedGNN可以提高对BRCA、LUSC和LUAD上的癌症驱动基因的预测性能。
表2PersonalizedGNN和其他GNN模型平均精度性能比较。
PairedSSN策略有效性验证
PersonalizedGNN的一个特点是,使用PairedSSN构建PGIN。为了验证PairedSSN对PersonalizedGNN的影响,将PersonalizedGNN与SSN方法进行了比较。为了获得SSN方法的结果,对于单个患者,首先去除该患者的正常样本,并使用所有其他正常样本构建参考网络。然后,仅使用该患者的肿瘤样本,利用SSN方法对该个体患者构建个体化的加权基因相互作用网络。其他计算边权的公式与PairedSSN方法(材料和方法部分)步骤相同。最后,在BRCA、LUAD和LUSC癌症数据集上,获得SSN的癌症驱动基因预测结果。此外,生成10个拓扑结构度分布一致的随机网络,从而比较了PersonalizedGNN与随机网络预测性能。不同网络构建方法(PairedSSN、SSN以及随机网络)的预测结果如表3所示。从表3,可以看到,在这些癌症数据集上,PairedSSN方法的精度高于SSN方法和随机网络。这些结果表明,PairedSSN方法可以有效提高PersonalizedGNN的预测性能。
表3在BRCA、LUAD和LUSC癌症数据集上,网络构建方法、负样本选择、特征选择策略、正则化策略和类加权损失函数的平均准确率。
负样本选择对PersonalizedGNN有效性验证
为了验证负样本集合的有效性,首先从未标记基因中随机选择和原始负样本集合具有相同数量基因的样本集合。然后比较了原始负样本集合和随机负样本集合对BRCA、LUSC和LUAD的预测结果。排名前k(k=1,2,...,30)基因的预测结果如表3所示。从表3可以看出,负样本集合的准确率远远高于随机负样本集合。这些结果表明,负样本集合可以有效地训练和验证PersonalizedGNN模型。
特征选择策略有效性验证
PersonalizedGNN的一个关键输入是,使用PGIN的边权值来提取基因特征,而不是传统的基因组学特征。为了验证特征选择在PersonalizedGNN中的有效性,将肿瘤样本的基因表达值作为个体化基因特征(即个体化基因表达特征),并将其与PersonalizedGNN的性能进行比较。此外,还比较了PersonalizedGNN与特定癌症类型多组学生物学特征(即基因启动子区域的DNA甲基化特征、基因单核苷酸变异(SNVs)的基因突变特征、基因拷贝数变异和基因表达特征)的预测准确率。BRCA,LUSC和LUAD基因的多组学特征直接从现参考文献获得。前k(k=1,2,...,30)排名基因准确率的比较结果如表3所示。从表3中可以看出,基因特征选择的准确率远远高于个体化基因表达特征和多组学生物学特征结果。这些结果表明,PGIN中基因的边权重可以提高对癌症驱动因素的识别。
正则化策略有效性验证
为了验证正则化策略(即Dropout、Dropedge和DropatAttention)的有效性,将PersonalizedGNN与没有使用这些正则化策略的PersonalizedGNN的预测结果进行了比较。排名前k(k=1,2,...,30)排序基因的准确率,如表3所示。从表3中可以看出,PersonalizedGNN的准确率远远高于没有使用这两种正则化策略的PersonalizedGNN。这些结果表明,正则化策略可以有效地训练和验证PersonalizedGNN模型。
分类加权损失函数的有效性验证
在训练PersonalizedGNN的过程中,应用类加权损失函数来解决标签分布不平衡。为了验证其识别癌症驱动基因的有效性,将使用类加权损失函数和不使用类加权损失函数的PersonalizedGNN预测结果进行了比较。排名前k(k=1,2,...,30)排序基因的准确率,如表3所示。从表3中可以看出,PersonalizedGNN的精度远远高于没有类加权损失函数的PersonalizedGNN。这些结果表明,有类加权损失函数可以有效地提升PersonalizedGNN模型的预测性能。
结论
在本实施例中,通过将个体化的癌症驱动基因预测问题转换为半监督学习分类任务,提出了一种半监督图神经网络学习方法PersonalizedGNN。这是第一次尝试应用GNN方法来识别个体化的驱动基因,为识别个体化驱动基因提供了一个新的视角。比较了PersonalizedGNN与其他先进的方法在BRCA,LUSC,LUAD数据集。实验表明,PersonalizedGNN在识别癌症组织特异性驱动基因方面优于其他现有方法。由于PersonalizedGNN的性能得益于基于GNN的半监督学习方法,未来使用基于个体化异质组学数据的异构图神经网络可能有助于识别个体化驱动基因。此外,将PersonalizedGNN扩展到非编码驱动基因识别,也是未来另一个重要研究方向。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (8)
1.一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:包括以下步骤:
1)利用个体患者基因组数据构建个体化基因交互网络PGIN;
2)用标签重用策略训练图注意网络GAT,识别个体化驱动基因,具体为:
a、通过将邻接矩阵、初始节点特征和节点标签作为输入的初始GAT模型获得初始预测标签;
b、在GAT上应用了标签重利用策略预测癌症驱动基因;
c、对基因进行投票,并对基因得分进行排序,以获得个体患者的基因排序。
2.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:步骤1)中,采用癌症基因组图谱TCGA数据库中乳腺浸润性癌BRCA以及肺癌个体病人的基因组组学数据构建PGIN,肺癌个体病人的基因组组学数据包括肺腺癌LUAD和肺鳞状细胞癌LUSC;使用Paired-SSN方法对BRCA、LUSC和LUAD数据的基因表达和SNV突变数据集进行分析,Paired-SSN方法通过整合基因体细胞突变数据、个体患者基因表达数据和已知的人类基因相互作用网络数据来构建个体患者的PGIN。
4.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:GAT为:
给定PGIN一个图表示G=(V,E),其中V={v1,v2,...,vN}为PGIN节点的集合,E为PGIN边的集合,分别将A和表示为邻接矩阵和节点特征,其中N为节点数,F为节点特征的维数;标签矩阵C是类的数量;假设每个节点具有一个特征向量hi和标签yi,对于与图G相关数据集D={vi,hi,yi},都有训练集DTrain和测试集DTest;训练GAT的目的是预测未标记节点的标签;
GAT预测基因标签包括两个方面:一个是具有图注意层的特征表示,另一个是驱动基因的标签预测;
特征表示:图注意层的输入是一组节点特征输出是一组新的学习节点特征GAT模型在GCN的基础上进行改进,结合注意力机制GAT,注意力机制GAT为不同节点分配不同权重,在训练时依赖于成对的相邻节点,而不依赖具体的网络结构.GAT假设图中包含N个节点,则输入网络的节点向量记作:h={h1,h2,…,hN},hi∈RF,图注意力网络的输出向量记作:h'={h1',h2',…,hN'},hi'∈RF;模型在计算节点间的信息聚合时引入了自注意力机制,对应的计算公式为
eij=a(Wh,Wj)
其中,eij表示节点j对于节点i的重要性,并且节点i必须是节点j的一阶邻居,在计算节点间的注意力得分时则使用masked attention实现,上述对于邻居节点必须为一阶邻居的假设要求;
设节点i有4个一阶邻居节点,即:hj1,hj2,hj3,hj4为4个一阶邻居节点对应的特征向量,aij1,aij2,aij3,aij4为经过注意力机制计算后对应的分值;计算注意力分值的公式如下:
ai,j=softmax(eij)
注意力机制是通过单层前馈神经网络来实现,其中激活函数使用LeakyReLU函数,进而计算注意力分值的公式扩展为:
其中,βT是前馈神经网络的可训练参数;W是可训练的参数;GAT中加入多头注意力机制,经过K头注意力机制计算后的特征向量进行拼接后,对应的输出特征向量表达如下:
采用取平均的方式计算用于预测最后一层的特征向量,则经过多头注意力机制计算的最后一层输出为:
如果GAT网络的最终层是由多头注意完成的,节点表示是通过平均多个注意的特征生成的;
癌症驱动基因标签预测:在输出层,采用softmax分类器,将经过GAT模型计算后的向量记作H,并输入到分类器中,对应的公式如下:
Y=softmax(H)
5.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:步骤b中,标签重利用策略具体为:将PGIN的邻接矩阵A,PGIN中的初始节点特征h和节点标签Y作为初始GAT模型的输入,用于标签重利用策略的迭代过程,从而获得初始预测标签;然后标签重利用策略迭代地将前一次迭代的预测软标签作为GAT在当前迭代中的特征矩阵,在每个迭代期间,标签重利用策略会分解Dtrain为n个随机子数据集对于其中一个子数据集,将其真实标签作为当前迭代的标签矩阵Y,并将其与其他子数据集上一次迭代的预测标签连接成一个生成特征;对所有子数据集进行相同的操作,获得所有生成特征,并在每次迭代过程不断更新这些特征,同时利用新的预测标签进行新的特征;所有生成的特征都与初始特征连接起来,构造每次迭代过程的增广特征矩阵;最后,将迭代过程对应的增广特征矩阵作为模型的训练特征,输出所有迭代的预测标签。
6.根据权利要求5所述的一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:在每次迭代中,通过使用5折交叉验证,训练GAT模型预测驱动基因;对于5折交叉验证策略,所有的基因被划分为5个大小大致相等的不重叠的子集;依次选取这5个子集中的一个作为测试集,并使用其他4个子集作为训练集;这个过程重复了5次,直到所有的基因被依次测试;如果一个被测试基因在一次迭代过程中被预测为正样本,那么该基因得到1分;否则,这个基因得到0分。
7.根据权利要求1所述的一种基于半监督图神经网络的个体驱动基因预测方法,其特征在于:步骤3)中,应用正则化策略来克服过平滑和过拟合的问题,正则化策略即dropout,DropEdge和DropatAttention;Dropout通过随机设置一定数量的节点特征为零来干扰特征矩阵,从而减少过拟合的影响;DropEdge试图随机删除原始图中固定数量的边,减轻过拟合和过平滑;DropatAttention关注正则化注意权重,并通过随机设置一定数量的注意权重为零来减少过拟合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210645490.5A CN115019891B (zh) | 2022-06-08 | 2022-06-08 | 一种基于半监督图神经网络的个体驱动基因预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210645490.5A CN115019891B (zh) | 2022-06-08 | 2022-06-08 | 一种基于半监督图神经网络的个体驱动基因预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019891A true CN115019891A (zh) | 2022-09-06 |
CN115019891B CN115019891B (zh) | 2023-07-07 |
Family
ID=83073345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210645490.5A Active CN115019891B (zh) | 2022-06-08 | 2022-06-08 | 一种基于半监督图神经网络的个体驱动基因预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019891B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115641955A (zh) * | 2022-10-19 | 2023-01-24 | 哈尔滨工业大学 | 基于深度学习的胃癌分期判别系统及存储介质 |
CN116805513A (zh) * | 2023-08-23 | 2023-09-26 | 成都信息工程大学 | 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法 |
CN116936103A (zh) * | 2023-09-12 | 2023-10-24 | 神州医疗科技股份有限公司 | 一种基于同向网络的用户健康预测管理方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140364439A1 (en) * | 2011-12-07 | 2014-12-11 | The Broad Institute, Inc. | Markers associated with chronic lymphocytic leukemia prognosis and progression |
CN110363282A (zh) * | 2019-06-06 | 2019-10-22 | 中国科学院信息工程研究所 | 一种基于图卷积网络的网络节点标签主动学习方法和系统 |
CN110378291A (zh) * | 2019-07-22 | 2019-10-25 | 浙江大学 | 一种基于半监督学习的人体特征参数预测方法 |
CN110473592A (zh) * | 2019-07-31 | 2019-11-19 | 广东工业大学 | 基于图卷积网络的有监督的多视角人类协同致死基因预测方法 |
CN112508085A (zh) * | 2020-12-05 | 2021-03-16 | 西安电子科技大学 | 基于感知神经网络的社交网络链路预测方法 |
CN113011485A (zh) * | 2021-03-12 | 2021-06-22 | 北京邮电大学 | 多模态多病种长尾分布眼科疾病分类模型训练方法和装置 |
CN113256636A (zh) * | 2021-07-15 | 2021-08-13 | 北京小蝇科技有限责任公司 | 一种自底向上的寄生虫虫种发育阶段及图像像素分类方法 |
CN113362894A (zh) * | 2021-06-15 | 2021-09-07 | 上海基绪康生物科技有限公司 | 一种对协同致死的癌症驱动基因进行预测的方法 |
CN113488104A (zh) * | 2021-06-08 | 2021-10-08 | 安徽大学 | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 |
CN113517021A (zh) * | 2021-06-09 | 2021-10-19 | 海南精准医疗科技有限公司 | 一种癌症驱动基因预测方法 |
CN113611363A (zh) * | 2021-08-09 | 2021-11-05 | 上海基绪康生物科技有限公司 | 一种利用共识性预测结果识别癌症驱动基因的方法 |
CN114141306A (zh) * | 2021-11-19 | 2022-03-04 | 天津大学 | 基于基因相互作用模式优化图表示的远处转移识别方法 |
CN114325634A (zh) * | 2021-12-23 | 2022-04-12 | 中山大学 | 一种基于激光雷达的高鲁棒性野外环境下可通行区域提取方法 |
-
2022
- 2022-06-08 CN CN202210645490.5A patent/CN115019891B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140364439A1 (en) * | 2011-12-07 | 2014-12-11 | The Broad Institute, Inc. | Markers associated with chronic lymphocytic leukemia prognosis and progression |
CN110363282A (zh) * | 2019-06-06 | 2019-10-22 | 中国科学院信息工程研究所 | 一种基于图卷积网络的网络节点标签主动学习方法和系统 |
CN110378291A (zh) * | 2019-07-22 | 2019-10-25 | 浙江大学 | 一种基于半监督学习的人体特征参数预测方法 |
CN110473592A (zh) * | 2019-07-31 | 2019-11-19 | 广东工业大学 | 基于图卷积网络的有监督的多视角人类协同致死基因预测方法 |
CN112508085A (zh) * | 2020-12-05 | 2021-03-16 | 西安电子科技大学 | 基于感知神经网络的社交网络链路预测方法 |
CN113011485A (zh) * | 2021-03-12 | 2021-06-22 | 北京邮电大学 | 多模态多病种长尾分布眼科疾病分类模型训练方法和装置 |
CN113488104A (zh) * | 2021-06-08 | 2021-10-08 | 安徽大学 | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 |
CN113517021A (zh) * | 2021-06-09 | 2021-10-19 | 海南精准医疗科技有限公司 | 一种癌症驱动基因预测方法 |
CN113362894A (zh) * | 2021-06-15 | 2021-09-07 | 上海基绪康生物科技有限公司 | 一种对协同致死的癌症驱动基因进行预测的方法 |
CN113256636A (zh) * | 2021-07-15 | 2021-08-13 | 北京小蝇科技有限责任公司 | 一种自底向上的寄生虫虫种发育阶段及图像像素分类方法 |
CN113611363A (zh) * | 2021-08-09 | 2021-11-05 | 上海基绪康生物科技有限公司 | 一种利用共识性预测结果识别癌症驱动基因的方法 |
CN114141306A (zh) * | 2021-11-19 | 2022-03-04 | 天津大学 | 基于基因相互作用模式优化图表示的远处转移识别方法 |
CN114325634A (zh) * | 2021-12-23 | 2022-04-12 | 中山大学 | 一种基于激光雷达的高鲁棒性野外环境下可通行区域提取方法 |
Non-Patent Citations (7)
Title |
---|
C. WANG ET AL: "A Cancer Survival Prediction Method Based on Graph Convolutional Network", 《IEEE TRANSACTIONS ON NANOBIOSCIENCE》, pages 117 - 126 * |
CHUANG LIU ET AL: "Enhancing Cancer Driver Gene Prediction by Protein-Protein Interaction Network", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》, pages 2 - 3 * |
W. LIU ET AL: "A New Scheme for Essential Protein Identification Based on Uncertain Networks", 《IEEE ACCESS》, pages 33977 - 33989 * |
W. ZHANG ET AL: "Predicting Essential Proteins by Integrating Network Topology, Subcellular Localization Information, Gene Expression Profile and GO Annotation Data", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》, pages 2053 - 2061 * |
WEI-FENG GUO ET AL: "A novel network control model for identifying personalized driver genes in cancer", 《PLOS COMPUTATIONAL BIOLOGY》, pages 18 - 19 * |
宁世琦等: "基于图卷积网络的癌症临床结果预测的半监督学习方法", 《智能计算机与应用》, vol. 8, no. 6, pages 44 - 53 * |
郭峻凌: "基于图卷积网络的癌症生存期预测方法", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, vol. 2020, no. 2, pages 072 - 3 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115641955A (zh) * | 2022-10-19 | 2023-01-24 | 哈尔滨工业大学 | 基于深度学习的胃癌分期判别系统及存储介质 |
CN116805513A (zh) * | 2023-08-23 | 2023-09-26 | 成都信息工程大学 | 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法 |
CN116805513B (zh) * | 2023-08-23 | 2023-10-31 | 成都信息工程大学 | 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法 |
CN116936103A (zh) * | 2023-09-12 | 2023-10-24 | 神州医疗科技股份有限公司 | 一种基于同向网络的用户健康预测管理方法及系统 |
CN116936103B (zh) * | 2023-09-12 | 2023-12-15 | 神州医疗科技股份有限公司 | 一种基于同向网络的用户健康预测管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115019891B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115019891B (zh) | 一种基于半监督图神经网络的个体驱动基因预测方法 | |
CN110021341B (zh) | 一种基于异构网络的gpcr药物和靶向通路的预测方法 | |
Jeong et al. | An evolutionary algorithm with the partial sequential forward floating search mutation for large-scale feature selection problems | |
CN110993113B (zh) | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 | |
Maulik | Analysis of gene microarray data in a soft computing framework | |
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN113871021A (zh) | 一种基于图注意力机制的circRNA与疾病关联关系预测方法 | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
CN115798730A (zh) | 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 | |
Tamilmani et al. | Cancer MiRNA biomarker classification based on improved generative adversarial network optimized with mayfly optimization algorithm | |
CN115995293A (zh) | 一种环状rna和疾病关联预测方法 | |
Naik et al. | A global-best harmony search based gradient descent learning FLANN (GbHS-GDL-FLANN) for data classification | |
Kasabov et al. | Integrated optimisation method for personalised modelling and case studies for medical decision support | |
Bai et al. | A joint multiobjective optimization of feature selection and classifier design for high-dimensional data classification | |
Dai et al. | An opposition-based differential evolution clustering algorithm for emotional preference and migratory behavior optimization | |
Babu et al. | A simplex method-based bacterial colony optimization algorithm for data clustering analysis | |
Nandhini et al. | An optimal stacked ResNet-BiLSTM-based accurate detection and classification of genetic disorders | |
Bagheri Khoulenjani et al. | Cancer miRNA biomarkers classification using a new representation algorithm and evolutionary deep learning | |
Hu et al. | Cancer gene selection with adaptive optimization spiking neural P systems and hybrid classifiers | |
CN116153396A (zh) | 一种基于迁移学习的非编码变异预测方法 | |
Chatzilygeroudis et al. | Feature Selection in single-cell RNA-seq data via a Genetic Algorithm | |
CN115691817A (zh) | 一种基于融合神经网络的LncRNA-疾病关联预测方法 | |
Liu et al. | The design of soft recoding-based strategies for improving error-correcting output codes | |
Chowdhury et al. | Cell type identification from single-cell transcriptomic data via gene embedding | |
Thakur et al. | Machine learning and deep learning for intelligent and smart applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |