CN116741269A - 一种融合基因特征和图卷积预测个性化癌症驱动基因的方法 - Google Patents
一种融合基因特征和图卷积预测个性化癌症驱动基因的方法 Download PDFInfo
- Publication number
- CN116741269A CN116741269A CN202310505258.6A CN202310505258A CN116741269A CN 116741269 A CN116741269 A CN 116741269A CN 202310505258 A CN202310505258 A CN 202310505258A CN 116741269 A CN116741269 A CN 116741269A
- Authority
- CN
- China
- Prior art keywords
- gene
- sample
- matrix
- cancer
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 265
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 109
- 201000011510 cancer Diseases 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 115
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 230000002068 genetic effect Effects 0.000 claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims description 27
- 230000035772 mutation Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 11
- 238000005096 rolling process Methods 0.000 claims description 9
- 230000004547 gene signature Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 206010006187 Breast cancer Diseases 0.000 description 5
- 208000026310 Breast neoplasm Diseases 0.000 description 5
- 206010069754 Acquired gene mutation Diseases 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- QCAWEPFNJXQPAN-UHFFFAOYSA-N methoxyfenozide Chemical compound COC1=CC=CC(C(=O)NN(C(=O)C=2C=C(C)C=C(C)C=2)C(C)(C)C)=C1C QCAWEPFNJXQPAN-UHFFFAOYSA-N 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005295 random walk Methods 0.000 description 4
- 230000037439 somatic mutation Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 2
- 102000048850 Neoplasm Genes Human genes 0.000 description 2
- 108700019961 Neoplasm Genes Proteins 0.000 description 2
- 208000000102 Squamous Cell Carcinoma of Head and Neck Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 201000000459 head and neck squamous cell carcinoma Diseases 0.000 description 2
- 201000005249 lung adenocarcinoma Diseases 0.000 description 2
- 201000005243 lung squamous cell carcinoma Diseases 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101150042441 K gene Proteins 0.000 description 1
- 235000006629 Prosopis spicigera Nutrition 0.000 description 1
- 240000000037 Prosopis spicigera Species 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007012 clinical effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002962 histologic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种融合基因特征和图卷积预测个性化癌症驱动基因的方法,属于系统生物学技术领域。本发明首先通过在基因‑基因网络中执行Deepwalk算法,学习到此网络中蕴含了节点多阶邻居信息的基因结构特征。然后,利用图卷积网络实现癌症样本亚型的预测,提取模型的参数,通过与癌症亚型预测任务关联起来可以得到融合了癌症样本亚型信息的基因特征。然后在构建的基因‑样本关联矩阵中执行图卷积学习得到基因和样本节点的邻居特征和自身特征。最后通过对得到的4个特征加权得到基因的融合特征。接下来我们通过线性相关系数解码器实现基因‑样本关联矩阵的重构,从而实现样本个性化癌症驱动基因的预测。
Description
技术领域
本发明涉及一种融合基因特征和图卷积预测个性化癌症驱动基因的方法,属于系统生物学技术领域。
背景技术
癌症是由于体细胞突变引起的,其致病机理复杂,导致其诊断和治疗也存在很大的困难。一个癌症患者总是携带着成百上千的突变,但是其中只有少数能促进癌症发生发展的突变才被称为驱动突变,而发生了驱动突变的基因便被称为驱动基因,与之相反的则被称为乘客基因。目前,如何从大量与癌症发展无关的乘客基因中准确地区分出癌症驱动基因是癌症基因组学分析中的一个热点问题,这对于理解癌症发病机制和癌症靶向治疗也发挥着重要作用。
目前,识别癌症驱动基因的方法大都是基于大量患者来实现的,一般来说,他们通常使用基因在多个样本中的表达数据和突变数据以及组学数据来预测一种癌症类型的驱动基因。然而,由于癌症的高度异质性,相同类型的癌症患者的基因组特征和临床表现可能存在差异。所以基于大量样本识别的驱动基因设计的药物的临床效果可能不尽人意。因此,根据样本体细胞突变数据设计有效的方法来识别样本中的驱动基因是很有必要的。
目前,大多数样本个性化癌症驱动基因的预测方法是通过样本中的突变基因以及与突变基因作用密切相关的非突变基因来构建样本突变网络,再基于该样本突变基因网络设计算法实现样本突变基因排序。例如Hou等人提出的DawnRank算法将基因相互作用网络视为一个有向图,采用PageRank方法对基因的得分进行迭代更新,再根据基因的得分对样本的基因进行排序。Guo等人提出的SCS算法使用重启随机游走算法,提取突变基因及与其密切作用的差异表达基因,每条边的权重表示该边作为到差异表达基因的控制路径的置信度,边的权值之和构成了预测的驱动基因对表达模式的得分。Dinstag等人提出的Prodigy算法通过分析样本的差异表达基因富集在不同的通路,从而构建样本的基因相互作用网络,然后在此网络中找到一个子树,最大化节点的权重之和减去其中边的代价,作为该突变基因的得分,从而实现对样本突变基因的排序。Cesim等人提出的PersonaDrive算法为每个患者构建了突变基因和差异表达基因之间的二分图,然后根据患者的“成对通路覆盖率”得分之和,对患者的突变基因进行排序。
然而,上述方法都没有考虑使用已知患者的驱动基因来揭示新患者的驱动基因。Zhang等人提出的IMCDriver算法假设功能与已知驱动基因相似的突变基因更有可能是驱动基因。它计算患者之间以及基因之间的相似性,并根据已知患者的驱动基因构建基因-样本关联矩阵,最后再根据相似样本驱动基因的功能相似性对样本突变基因进行排序。pDriverGCN利用已知样本的驱动基因构建基因-样本关联矩阵,通过在基因-样本网络上执行图卷积(GCN)来汇聚基因和样本邻居节点特征,再结合节点自身特征从而学习到样本和基因节点新的特征表示,最后通过线性相关系数解码器重构样本和突变基因之间的关联关系,实现样本个性化驱动基因的预测。
现有的方法大都忽略了基因-基因网络中富含的丰富的节点信息,同时也忽略了癌症亚型信息与驱动基因之间的关系,而单个癌症病人属于特定的癌症亚型跟其驱动基因以及相关基因之间的调控机制密切相关。因此需要设计算法通过融合基因的多种特征来实现进一步实现样本个性化驱动基因的识别。
发明内容
本发明要解决的技术问题是提供一种融合基因特征和图卷积预测个性化癌症驱动基因的方法,通过融合多种基因的特征进一步提高样本个性化驱动基因识别的准确度,用以解决上述问题。
本发明的技术方案是:一种融合基因特征和图卷积预测个性化癌症驱动基因的方法,首先通过在基因-基因网络中执行Deepwalk算法,学习到此网络中蕴含了节点多阶邻居信息的基因结构特征。然后,利用图卷积网络实现癌症样本亚型的预测,提取模型的参数,通过与癌症亚型预测任务关联起来可以得到融合了癌症样本亚型信息的基因特征。然后在构建的基因-样本关联矩阵中执行图卷积学习得到基因和样本节点的邻居特征和自身特征。最后通过对得到的4个特征加权得到基因的融合特征。
具体步骤为:
Step1:数据预处理并利用已知患者的驱动基因构建基因-样本关联矩阵。
Step2:通过在基因-基因网络中执行Deepwalk算法得到蕴含此网络中的多阶邻居信息的基因特征。
Step3:利用图卷积网络实现癌症样本亚型的预测,提取模型参数,得到融合样本亚型信息的基因特征。
Step4:通过在构建的基因-样本关联矩阵中执行图卷积得到基因和样本节点的邻居特征以及自身特征。
Step5:为得到的基因的4种特征加权,得到基因的融合特征,同时将样本节点的邻居特征和自身特征相加得到样本节点的特征。
Step6:利用学到的节点特征和解码器重构基因-样本关联矩阵。
所述基因-样本关联矩阵为
其中,行代表突变基因,列代表样本,Ng是筛选后的基因的数目,Ns为样本的数量。
所述Step3具体为:
Step3.1:基因-基因网络的构建并准备基因节点特征。
数据预处理后,得到保存样本突变数据的突变矩阵MM,以及保存了样本基因表达数据的表达矩阵EM,以及基因-基因网络的邻接矩阵AG,对样本i而言,其中基因的初始特征是由该样本的基因表达数据和突变数据拼接而来,其具体为示:
GIFi=EMi||MMi
其中,EMi为表达矩阵EM的第i列,表示第i个样本的表达数据,MMi是突变矩阵MM的第i列,表示第i个样本的突变数据,而||代表拼接操作。
最后样本i基因的初始特征矩阵为
那么,对一个类型癌症的数据而言,这个癌症中所有样本的基因初始特征矩阵为
Step3.2:使用GCN学习基因节点特征。
通过在基因-基因网络中执行GCN汇聚邻居节点的特征和自身特征从而学习节点的新特征,GCN每一层的输入都是网络的邻接矩阵和上一层GCN输出的节点特征,GCN层与层之间的传播方式为:
式中,而/>则为单位矩阵,在邻接矩阵上加上该单位矩阵,相当于在该网络的邻接矩阵加上自连接,这样在消息聚合时,不仅能汇聚其邻居节点的消息,还能汇聚结点自身的信息。然后,/>是/>的度矩阵,H(l)是则是第l层GCN输出的特征,当l=0时,H(0)为样本的初始特征矩阵,H(0)=GIF,而W(l)为需要学习的权重矩阵,σ为Relu激活函数。
在识别样本癌症亚型时,使用了两层GCN,一共涉及两个权重矩阵, 因此,对一个类型癌症中的样本来说,在通过两层GCN以后,其输出的特征矩阵为/>
Step3.3:通过学到的特征预测样本的癌症亚型。
通过在网络中执行GCN后得到特征矩阵得到的各个样本的特征为一个Ng×k2的矩阵,为了得到各个样本的亚型划分,将得到的各个样本的基因特征矩阵执行平均池化操作,其具体为:
SOF=AvgPool2d((1,k2))
通过平均池化得到的特征矩阵然后将该特征矩阵的第三个维度进行压缩得到/>最后再通过下式实现对样本癌症亚型的预测:
p=SOF·WO+bO
其中,为权重矩阵,Nt是各个癌症划分的亚型类别数目,bO为需要学习的偏置参数,通过上述等式得到的/>是模型预测各个癌症样本属于对应癌症亚型的概率。
应用下式来优化模型参数:
其中,yij的值为0或者1,如果样本i的真实标签为类别j,yij=1,否则yij=0,pij表示样本i属于类别j的预测概率。
在这里,值得注意的是,对一个类型的癌症样本而言,所有样本是共用一个基因-基因网络的,不同的是癌症中各个样本基因的初始特征各不相同。在实现样本癌症亚型的预测后,先提取该模型的参数,将模型最后预测癌症亚型部分的参数删掉,从而只获取通过GCN学习得到的包含了一个类型癌症中所有样本的基因特征矩阵而具体到某一个癌症患者上时,得到的融合了该样本癌症亚型信息的基因特征矩阵为/>
所述Step4具体为:
在构建的基因-样本关联矩阵中执行GCN来学习基因和样本节点的邻居的特征NFgene,NFsample,以及自身特征NFsample,SFsample。首先,考虑到基因和样本数据特征分布的不同,使用两个独立的GCN模型来分别学习基因节点和样本邻居节点的特,具体为:
NFgene=σ(Lg·t(EM)·WN0)
NFsample=σ(Ls·MM·WN1)
其中,Lg和Ls分别是关联矩阵A和AT的归一化拉普拉斯矩阵, Dg=diag(∑jAij+1),Ds=diag(∑jAji+1)。而/> 为权重矩阵,σ为Relu激活函数,t(*)是转置函数。/> 分别是基因和样本节点学到的特征向量。
上述过程在聚合节点特征时,节点聚合的特征只有邻居节点的特征,忽略了节点本身也是包含了丰富的信息的,因此,使用以下两个等式来学习基因和样本自身节点的特征:
其中,Ig和Is为单位矩阵,为权重矩阵。
所述Step5中样本节点的特征具体为:
SFFgene=NFsample+SFsample。
所述Step6中重构的基因-样本关联矩阵具体为:
本发明的有益效果是:本发明的实验结果与现有的方法相比,本发明提出的方法能够提高样本个性化驱动基因识别的性能,证明结合基因节点的多种特征能提升识别样本个性化驱动基因的准确性。
附图说明
图1是本发明的步骤流程图;
图2是本发明所使用的Deepwalk算法的结构图;
图3是本发明所使用的提取融合样本癌症亚型信息的基因特征的算法结构图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种融合基因特征和图卷积预测个性化癌症驱动基因的方法,具体步骤为:
Step1:数据预处理并利用已知患者的驱动基因构建基因-样本关联矩阵;
通常情况下,癌症驱动基因一般是发生了体细胞突变的基因,因此,只保留了至少在一个样本中发生了突变的基因。同时,先前的研究表明,驱动基因通常会影响在生物网络中跟它相连的基因的表达,因此能够显著影响其下游基因表达的突变基因更可能是驱动基因,因此进一步从中挑选了能够显著影响基因表达的突变基因。具体来说,删掉了那些在基因-基因网络中没有与outlying基因相连的突变基因,而其中outlying基因就是指样本中表达水平发生明显变化的基因。而outlying基因是通过计算样本基因表达值的z-score得到的,z-score是一种数据标准化方法,其计算方式如下所示:
其中x是样本基因的原始表达值,μ是样本基因表达值的均值,σ是样本基因表达值的标准差;如果计算得到样本中基因的|z|≥2,就认为该基因是outlying基因。
经过数据预处理后,得到了经过过滤的基因的表达矩阵突变矩阵其中Ng是筛选后的基因的数目,Ns为样本的数量。除此之外,还得到了基因-基因网络GI,以及网络对应的邻接矩阵/>如果基因i和基因j之间存在相互作用,那么AGij=1,否则AGij=0。
然后构建了基因-样本关联矩阵其中行代表突变基因,列代表样本,如果基因i在样本j中发生了突变并且是已知的驱动基因,则Aij=1,否则Aij=0,也就是说如果已经知道基因i是样本j的驱动基因,那么该关联矩阵中对应位置的的值为1。值得注意的是,关联矩阵A的大小与突变矩阵GF相同,不同的是,关联矩阵A记录了已知样本的驱动基因信息,而这些信息将在的GCN模型中被用来汇聚节点特征。
Step2:通过在基因-基因网络中执行Deepwalk算法得到蕴含此网络中的多阶邻居信息的基因特征;
DeepWalk算法是一种经典的用于学习网络中节点的隐特征的图嵌入算法,这些隐特征能够把节点在图中的关联关系编码成一个低维的,连续且稠密的向量,通过该向量可以很好地完成后续的机器学习分类任务。Deepwalk算法主要包括随机游走和生成节点表征向量两个组成部分;它首先通过在随机游走中设定一个固定的步长,从而得到一定长度的节点序列,然后借用自然语言处理中的思想,将提取出来的节点序列看成由单词组成的句子,而提取出来的大量节点序列就可以看成一个大的语料库,从而借助Word2vec对随机游走得到的节点序列中各个局部窗口中的节点对进行计算,通过最大化各个序列中节点在中心节点附近出现的概率,将网络中的各个节点表示成一个特定维度的向量。如图2所示,通过在基因-基因网络中执行DeepWalk算法得到基因的特征DWgene,而通过DeepWalk算法得到的基因节点嵌入特征维度kd=128。
Step3:利用图卷积网络实现癌症样本亚型的预测,提取模型参数,得到融合了样本亚型信息的基因特征;
相同类型的癌症患者根据其分子特征之间的不同可以被划分成不同的亚型,不同亚型的患者的肿瘤形态及其临床表现上也不相同。而癌症患者的亚型划分跟其驱动基因以及相关基因之间的调控机制密切相关,通过患者的亚型信息学习基因特征可以提高样本个性化驱动基因的预测效果。在这里,通过与癌症亚型预测任务关联起来学习与样本亚型相关的各个基因的特征。因此,首先利用GCN来实现癌症患者癌症亚型的预测,然后提取模型参数,得到融合了样本亚型信息的基因特征Subgene,主要包括以下三个步骤:
Step3.1:基因-基因网络的构建并准备基因节点特征;
如step1所示,经过数据预处理后,可以得到保存样本突变数据的突变矩阵MM,以及保存了样本基因表达数据的表达矩阵EM,以及基因-基因网络的邻接矩阵AG。而对样本i而言,其中基因的初始特征是由该样本的基因表达数据和突变数据拼接而来,其具体实现公式如下所示:
GIFi=EMi||EMi
其中EMi为表达矩阵EM的第i列,表示第i个样本的表达数据,MMi是突变矩阵MM的第i列,表示第i个样本的突变数据,而||代表拼接操作,因此最后样本i基因的初始特征矩阵为那么,对一个类型癌症的数据而言,这个癌症中所有样本的基因初始特征矩阵为/>
Step3.2:使用GCN学习基因节点特征;
通过在基因-基因网络中执行GCN汇聚邻居节点的特征和自身特征从而学习节点的新特征,GCN每一层的输入都是网络的邻接矩阵和上一层GCN输出的节点特征,在这里,定义的GCN层与层之间的传播方式如下所示:
其中而/>则为单位矩阵,在邻接矩阵上加上该单位矩阵,相当于在该网络的邻接矩阵加上自连接,这样在消息聚合时,不仅能汇聚其邻居节点的消息,还能汇聚结点自身的信息。然后,/>是/>的度矩阵,H(l)是则是第l层GCN输出的特征,当l=0时,H(0)为样本的初始特征矩阵,H(0)=GIF,而W(l)为需要学习的权重矩阵,σ为Relu激活函数。
在识别样本癌症亚型时,使用了两层GCN,所以一共涉及两个权重矩阵,因此,对一个类型癌症中的样本来说,在通过两层GCN以后,其输出的特征矩阵为/>
Step3.3:通过学到的特征预测样本的癌症亚型;
通过在网络中执行GCN后得到了特征矩阵得到的各个样本的特征为一个Ng×k2的矩阵,为了得到各个样本的亚型划分,将得到的各个样本的基因特征矩阵执行平均池化操作,其具体实现等式如下所示:
SOF=AvgPool2d((1,k2))
通过平均池化得到的特征矩阵然后将该特征矩阵的第三个维度进行压缩得到/>最后再通过如下等式实现对样本癌症亚型的预测:
p=SOF·WO+bO
其中为权重矩阵,其中Nt是各个癌症划分的亚型类别数目,bO为需要学习的偏置参数,通过上述等式得到的/>是模型预测各个癌症样本属于对应癌症亚型的概率。
然后,应用如下等式来优化模型参数:
其中yij的值为0或者1,如果样本i的真实标签为类别j,yij=1,否则yij=0,pij表示样本i属于类别j的预测概率。
在这里,值得注意的是,对一个类型的癌症样本而言,所有样本是共用一个基因-基因网络的,不同的是癌症中各个样本基因的初始特征各不相同。在实现样本癌症亚型的预测后,先提取该模型的参数,将模型最后预测癌症亚型部分的参数删掉,从而只获取通过GCN学习得到的包含了一个类型癌症中所有样本的基因特征矩阵而具体到某一个癌症患者上时,得到的融合了该样本癌症亚型信息的基因特征矩阵为/>
Step4:通过在构建的基因-样本关联矩阵中执行图卷积得到基因和样本节点的邻居特征以及自身特征;
在构建的基因-样本关联矩阵中执行GCN来学习基因和样本节点的邻居的特征NFgene,NFsample,以及自身特征NFsample,SFsample。首先,考虑到基因和样本数据特征分布的不同,使用两个独立的GCN模型来分别学习基因节点和样本节点的表征。具体来说,通过以下两个等式来学习基因和样本邻居节点的特征:
NFgene=σ(Lg·t(EM)·WN0)
NFsample=σ(Ls·MM·WN1)
其中Lg和Ls分别是关联矩阵A和AT的归一化拉普拉斯矩阵, 其中Dg=diag(∑jAij+1),Ds=diag(∑jAji+1);而/> 为权重矩阵,σ为Relu激活函数,t(*)是转置函数。/> 分别是基因和样本节点学到的特征向量。
上述过程在聚合节点特征时,节点聚合的特征只有邻居节点的特征,忽略了节点本身也是包含了丰富的信息的,因此,使用以下两个等式来学习基因和样本自身节点的特征:
其中Ig和Is为单位矩阵,为权重矩阵。
Step5:为得到的基因的4种特征加权,得到基因的融合特征;同时将样本节点的邻居特征和自身特征相加得到样本节点的特征;
通过上述部分,一共得到了 四种基因特征,但是由于得到特征的基础及其方式并不相同,这四种并不在同一特征空间中,因此,首先通过线性层将DWgene,Subgene映射到与NFgene,SFgene相同的特征空间中,通过以下两个等式分别将DWgene,Subgene进行映射:
LDWgene=σ(DWgene·Wd+bd)
LSubgene=σ(Subgene·Wt+bt)
其中是需要学习的权重参数,bd,bt为需要学习的偏置参数。由此可以得到和NFgene,SFgene属于同一特征空间的基因特征/>而σ为tanh激活函数。
为了权衡这四种特征的重要性,对这4种特征进行加权以后再相加,从而实现基因特征的融合,其计算方式如下所示:
GFFgene=w1*SFgene+w2*NFgene+w31*LDWgene+w4*LSubgene
其中w1,w2,w3,w4是为对应特征添加的权重,是可训练的参数。
最后,对样本节点的特征而言,通过将NFsample和SFsample这两部分的特征相加得到样本节点的最终特征SFFgene,如计算等式如下所示:
SFFgene=NFsample+SFsample
Step6:利用学到的节点特征和解码器重构基因-样本关联矩阵。
在得到样本节点特征和基因的融合特征后,通过线性相关系数解码器重构基因-样本关联矩阵。首先,通过如下两个等式将基因和样本节点的特征映射到低维特征空间:
GFFgene1=GFFgene·WG
SFFsample1=SFFsample·WS
其中分别表示基因和样本节点特征降维过程中可学习的权重参数矩阵,其中k<r。/>分别是基因和样本最终的k维特征表示。然后使用如下等式来计算GFFgene1和SFFsample1的相关系数:
其中hi∈GFFgene1,hj∈SFFsample1分别表示基因i和样本j的k维特征向量,μi和μj则分别表示向量hi和hj的均值。然后考虑到向量之间的相关系数的值在区间[-1,1]中,使用如下等式来激活输出:
其中f(h)中的α为缩放超参数,适当的α值可以加快模型的收敛,减少训练时间,而max(*)和min(*)分别代表求向量的最大值和最小值。最后,通过如下等式重构基因-样本关联矩阵:
然后,应用如下等式来优化模型参数:
其中Ng和Ns分别代表基因和样本的数量,M是一个指示矩阵,只有当基因i和样本j的关联关系在训练集中时,Mij=1,否则Mij=0。而β是一个超参数,其值为给正样本设置的权重。
实施例2:为了测试发明方法的有效性,将其应用于TCGA中的5种癌症数据集中:主要包括乳腺癌(Breast cancer,BRCA)、头颈部鳞状细胞癌(Head and neck squamous cellcarcinoma,HNSC)、肺腺癌(Lung adenocarcinoma,LUAD)、肺鳞状细胞癌(Lung squamouscell carcinoma,LUSC)和前列腺癌(Prostate cancer,PRAD)。只保留了其中体细胞突变和基因表达数据均可用的样本,其中包含957个BRCA样本,489个HNSC样本,499个LUAD样本,486个LUSC样本以及450个PRAD样本。除此之外,本发明所需要的蛋白质相互作用数据来自共识路径数据库(CPDB);癌症样本的亚型数据则是从TCGA数据集中的临床数据中分析得到的,使用R包TCGAbiolinks对所保留的癌症样本进行检索。
然后,从癌症基因网络(NCG 6.0)数据库下载了癌症的驱动基因列表,其中包含2372个癌症基因,涵盖了31种癌症类型。把每种癌症在NCG 6.0中出现的基因默认为驱动基因。在这里,不但使用NCG中已知的711个癌症驱动基因作为标准集,称为NCGall,还将NCG中癌症类型特异性基因筛选出来作为标准集,称为NCGspecific,分别对实验结果进行验证。
基于融合基因特征和图卷积预测个性化癌症驱动基因的方法的性能评估。
为了评估模型的性能,将的模型FMDriverGCN与6个方法进行了比较:Dawnrank、SCS、Prodigy、PersonDrive和IMCDriver、pDriverGCN。
采用留一交叉验证(leave-one-out cross-validation,LOOCV)对数据集每个样本的突变基因进行评分。LOOCV验证是一个迭代测试过程,每次迭代都从数据集中选择一个样本作为测试样本,其它样本则作为训练样本。重复此实验,直到数据集中的每个样本都成为过一次测试样本,从而得到每个样本中突变基因的得分。
FMDriverGCN模型中涉及的超参数设置如下:在基于癌症亚型识别任务提取的基因特征Subgene时,一共使用了两层GCN来学习节点特征,其中权重矩阵的维度分别为k1=32,k2=64,训练过程中的学习率lr=0.009。在基因-样本关联矩阵中执行GCN来学习基因和样本节点特征时涉及的权重矩阵的维度为r=128,在解码过程中,将节点特征映射到低维空间中的权重矩阵的维度为k=64,缩放参数α=2,训练过程中的学习率lr=5×10-4,训练迭代次数epoch=200。
为了评估的模型和所有对比方法的性能,使用LOOCV以获得每个样本中突变基因的分数,然后通过对得到的各个患者中突变基因的得分进行排序,可以得到各个患者的突变基因的优先级。将各个样本的突变基因与其对应癌症驱动基因标准集的交集作为各个样本的驱动基因参考集。在本发明中,使用信息检索中常用的评价指标平均倒数排名(MeanReciprocal Rank,MRR)来评价各个方法的效果,MRR通常是用来评价算法推荐文本的效果,因此,同样的,也可以用MRR来评价排名前K的基因的效果。其计算公式如下所示:
其中ranki的值与预测正确的基因在候选基因中的排序位置相关,如果一个样本的候选基因数目为20,而该基因排在第10位,则该基因的ranki=10/20=0.5,而Q则是各个样本中的驱动基因数目。MRR可以衡量将真正的驱动基因排在靠前位置的能力,其值越高,说明其预测性能越好。在得到各个样本的MRR值之后,再求其均值,与之前的方法进行比较,其结果如表1和表2所示,其分别代表使用NCGspecific和NCGall作为标准集的结果。从表中可以看到,FMDriverGCN的MRR值也是比之前的方法高的,说明的方法在预测样本个性化驱动基因上有更好的性能,虽然在使用作为标准集时,LUSC的性能提升效果不是很明显,但是在其它情况下,的效果还是有所提升的。
BRCA | HNSC | LUAD | LUSC | PRAD | |
DawnRank | 7.90945371 | 4.94747098 | 3.35028005 | 6.30478592 | 10.97767454 |
SCS | 1.8393617 | 1.30127865 | 1.1951004 | 2.09586905 | 1.81862745 |
Prodigy | 7.88008535 | 4.37222284 | 3.94021629 | 6.90592862 | 5.78879231 |
PersonaDrive | 10.18788541 | 6.98499201 | 4.54701602 | 8.53514224 | 10.52794745 |
IMCDriver | 15.06534502 | 8.22850383 | 9.73723618 | 15.55361511 | 8.61589405 |
pDriverGCN | 15.24011497 | 13.33955811 | 9.76853484 | 15.6907722 | 18.15173235 |
FMDriverGCN | 15.25900503 | 13.42540978 | 9.80527683 | 15.69077222 | 18.33267764 |
表1
BRCA | HNSC | LUAD | LUSC | PRAD | |
DawnRank | 6.82182394 | 4.87243196 | 3.93844703 | 3.29953658 | 7.91865243 |
SCS | 1.13906472 | 1.09927244 | 1.23714012 | 1.08718961 | 0.92586198 |
Prodigy | 6.28682392 | 3.83726544 | 3.53731845 | 3.3752457 | 3.87212546 |
PersonaDrive | 8.09045336 | 5.81146545 | 4.64073933 | 3.76552344 | 8.48943443 |
IMCDriver | 12.49911955 | 9.80799734 | 8.30751735 | 7.42323174 | 13.29199858 |
pDriverGCN | 12.61447272 | 9.94585267 | 8.32751366 | 7.46443088 | 14.07480129 |
FMDriverGCN | 12.68885425 | 10.092517 | 8.33737864 | 7.48013432 | 15.20671404 |
表2
FMDriverGCN关于多种基因特征的有效性的性能评估。
FMDriverGCN通过结合基因的多种特征来实现样本个性化癌症驱动基因的预测,而基因的特征包括NFgene,SFgene,LDWgene,LSubgene四个部分,因此为了验证基因各种特征的有效性,设置了消融实验,其结果如表3,4所示,其分别代表使用NCGspecific和NCGall作为标准集的结果,表中文字加粗的部分为最好的结果。表中pDriverGCN表示使用基因的特征为NFgene+SFgene,“添加DeepWalk特征”表示使用基因的特征为NFgene+SFgene+LDWgene,“添加DeepWalk特征+亚型特征”表示使用基因的特征为NFgene+SFgene+LDWgene+LSubgene,“添加DeepWalk特征+亚型特征+加权”则是在使用这4个特征的基础上,为这4个特征添加权重,用来权衡这四种特征的重要性,而且“添加DeepWalk特征+亚型特征+加权”其实就是完整的FMDriverGCN模型。
表3
表4
表3和表4结果表明通过融合基因的多种特征是可以促进样本个性化癌症驱动基因的识别的。从表中可以得到,“添加DeepWalk特征”结果得到了提升,说明基因-基因网络中蕴含的基因的多阶邻居信息对于样本个性化癌症驱动基因的识别是有效的。“添加DeepWalk特征+亚型特征”相比于“只添加Deepwalk特征”,其结果得到了进一步的提升,说明融合了样本亚型信息的基因特征对于样本个性化癌症驱动基因的识别也是有效的。最后,“添加DeepWalk特征+亚型特征+加权”结果的变化说明为学习到的特征进行加权在一定程度上也可以改善的实验效果。
综上所述,在与其他预测方法比较之后,证明了融合基因特征和图卷积预测个性化癌症驱动基因的方法的有效性。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种融合基因特征和图卷积预测个性化癌症驱动基因的方法,其特征在于:
Step1:数据预处理并利用已知患者的驱动基因构建基因-样本关联矩阵;
Step2:通过在基因-基因网络中执行Deepwalk算法得到蕴含此网络中的多阶邻居信息的基因特征;
Step3:利用图卷积网络实现癌症样本亚型的预测,提取模型参数,得到融合样本亚型信息的基因特征;
Step4:通过在构建的基因-样本关联矩阵中执行图卷积得到基因和样本节点的邻居特征以及自身特征;
Step5:为得到的基因的4种特征加权,得到基因的融合特征,同时将样本节点的邻居特征和自身特征相加得到样本节点的特征;
Step6:利用学到的节点特征和解码器重构基因-样本关联矩阵。
2.根据权利要求1所述的融合基因特征和图卷积预测个性化癌症驱动基因的方法,其特征在于:所述基因-样本关联矩阵为
其中,行代表突变基因,列代表样本,Ng是筛选后的基因的数目,Ns为样本的数量。
3.根据权利要求1所述的融合基因特征和图卷积预测个性化癌症驱动基因的方法,其特征在于,所述Step3具体为:
Step3.1:基因-基因网络的构建并准备基因节点特征;
数据预处理后,得到保存样本突变数据的突变矩阵MM,以及保存了样本基因表达数据的表达矩阵EM,以及基因-基因网络的邻接矩阵AG,对样本i而言,其中基因的初始特征是由该样本的基因表达数据和突变数据拼接而来,其具体为示:
GIFi=EMi||MMi
其中,EMi为表达矩阵EM的第i列,表示第i个样本的表达数据,MMi是突变矩阵MM的第i列,表示第i个样本的突变数据,而||代表拼接操作;
最后样本i基因的初始特征矩阵为
那么,对一个类型癌症的数据而言,这个癌症中所有样本的基因初始特征矩阵为
Step3.2:使用GCN学习基因节点特征;
通过在基因-基因网络中执行GCN汇聚邻居节点的特征和自身特征从而学习节点的新特征,GCN每一层的输入都是网络的邻接矩阵和上一层GCN输出的节点特征,GCN层与层之间的传播方式为:
式中,而/>则为单位矩阵,/>是/>的度矩阵,H(l)是则是第l层GCN输出的特征,当l=0时,H(0)为样本的初始特征矩阵,H(0)=GIF,而W(l)为需要学习的权重矩阵,σ为Relu激活函数;
在识别样本癌症亚型时,使用了两层GCN,一共涉及两个权重矩阵, 因此,对一个类型癌症中的样本来说,在通过两层GCN以后,其输出的特征矩阵为/>
Step3.3:通过学到的特征预测样本的癌症亚型;
通过在网络中执行GCN后得到特征矩阵得到的各个样本的特征为一个Ng×k2的矩阵,将得到的各个样本的基因特征矩阵执行平均池化操作,其具体为:
SOF=AvgPool2d((1,k2))
通过平均池化得到的特征矩阵然后将该特征矩阵的第三个维度进行压缩得到/>最后再通过下式实现对样本癌症亚型的预测:
p=SOF·WO+bO
其中,为权重矩阵,Nt是各个癌症划分的亚型类别数目,bo为需要学习的偏置参数,通过上述等式得到的/>是模型预测各个癌症样本属于对应癌症亚型的概率;
应用下式来优化模型参数:
其中,yij的值为0或者1,如果样本i的真实标签为类别j,yij=1,否则yij=0,pij表示样本i属于类别j的预测概率;
在实现样本癌症亚型的预测后,先提取该模型的参数,将模型最后预测癌症亚型部分的参数删掉,从而只获取通过GCN学习得到的包含了一个类型癌症中所有样本的基因特征矩阵而具体到某一个癌症患者上时,得到的融合了该样本癌症亚型信息的基因特征矩阵为/>
4.根据权利要求1所述的融合基因特征和图卷积预测个性化癌症驱动基因的方法,其特征在于,所述Step4具体为:
使用两个独立的GCN模型来分别学习基因节点和样本邻居节点的特,具体为:
NFgene=σ(Lg·t(EM)·WN0)
NFsample=σ(Ls·MM·WN1)
其中,Lg和Ls分别是关联矩阵A和AT的归一化拉普拉斯矩阵, Dg=diag(∑jAij+1),Ds=diag(∑jAji+1);而/> 为权重矩阵,σ为Relu激活函数,t(*)是转置函数。/> 分别是基因和样本节点学到的特征向量;
使用以下两个等式来学习基因和样本自身节点的特征:
其中,Ig和Is为单位矩阵,为权重矩阵。
5.根据权利要求4所述的融合基因特征和图卷积预测个性化癌症驱动基因的方法,其特征在于,所述Step5中样本节点的特征具体为:
SFFgene=NFsample+SFsample。
6.根据权利要求5所述的融合基因特征和图卷积预测个性化癌症驱动基因的方法,其特征在于,所述Step6中重构的基因-样本关联矩阵具体为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505258.6A CN116741269A (zh) | 2023-05-08 | 2023-05-08 | 一种融合基因特征和图卷积预测个性化癌症驱动基因的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505258.6A CN116741269A (zh) | 2023-05-08 | 2023-05-08 | 一种融合基因特征和图卷积预测个性化癌症驱动基因的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116741269A true CN116741269A (zh) | 2023-09-12 |
Family
ID=87903451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310505258.6A Pending CN116741269A (zh) | 2023-05-08 | 2023-05-08 | 一种融合基因特征和图卷积预测个性化癌症驱动基因的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116741269A (zh) |
-
2023
- 2023-05-08 CN CN202310505258.6A patent/CN116741269A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109994200B (zh) | 一种基于相似度融合的多组学癌症数据整合分析方法 | |
Wang et al. | LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization | |
CN112820403B (zh) | 一种基于多组学数据预测癌症患者预后风险的深度学习方法 | |
CN116741397B (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
CN113130002B (zh) | 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 | |
CN112466404A (zh) | 一种宏基因组重叠群无监督聚类方法及系统 | |
CN105808976A (zh) | 一种基于推荐模型的miRNA靶基因预测方法 | |
CN115019891A (zh) | 一种基于半监督图神经网络的个体驱动基因预测方法 | |
CN116417070A (zh) | 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法 | |
Chen et al. | Comparison of beta diversity measures in clustering the high-dimensional microbial data | |
Lee et al. | Survival prediction and variable selection with simultaneous shrinkage and grouping priors | |
Sun et al. | Two stages biclustering with three populations | |
Chai et al. | Integrating multi-omics data with deep learning for predicting cancer prognosis | |
Vidyasagar | Probabilistic methods in cancer biology | |
CN114141306B (zh) | 基于基因相互作用模式优化图表示的远处转移识别方法 | |
CN116741269A (zh) | 一种融合基因特征和图卷积预测个性化癌症驱动基因的方法 | |
Baruah et al. | Identification of ESCC potential biomarkers using biclustering algorithms | |
CN104462817A (zh) | 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 | |
KR102376212B1 (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 | |
Netzer et al. | Predicting prediction: A systematic workflow to analyze factors affecting the classification performance in genomic biomarker discovery | |
Yousefi et al. | Consensus clustering for robust bioinformatics analysis | |
Liu et al. | RMDGCN: Prediction of RNA methylation and disease associations based on graph convolutional network with attention mechanism | |
Lengerich | Sample-Specific Models for Precision Medicine | |
Marchetti-Bowick | Structured Sparse Regression Methods for Learning from High-Dimensional Genomic Data | |
Mostavi | Cancersiamese: one-shot learning for primary and metastatic tumor classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |