CN113488104B - 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 - Google Patents
基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 Download PDFInfo
- Publication number
- CN113488104B CN113488104B CN202110638436.3A CN202110638436A CN113488104B CN 113488104 B CN113488104 B CN 113488104B CN 202110638436 A CN202110638436 A CN 202110638436A CN 113488104 B CN113488104 B CN 113488104B
- Authority
- CN
- China
- Prior art keywords
- gene
- data
- genes
- network
- cancer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 189
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 60
- 201000011510 cancer Diseases 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004458 analytical method Methods 0.000 title claims abstract description 25
- 230000014509 gene expression Effects 0.000 claims abstract description 46
- 238000005295 random walk Methods 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 206010069754 Acquired gene mutation Diseases 0.000 claims abstract description 28
- 230000037439 somatic mutation Effects 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 10
- 230000035772 mutation Effects 0.000 claims description 45
- 230000003993 interaction Effects 0.000 claims description 8
- 208000031404 Chromosome Aberrations Diseases 0.000 claims description 6
- 231100000005 chromosome aberration Toxicity 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 239000002773 nucleotide Substances 0.000 claims description 5
- 125000003729 nucleotide group Chemical group 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 4
- 238000003012 network analysis Methods 0.000 claims description 4
- 210000001082 somatic cell Anatomy 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 2
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 102000048850 Neoplasm Genes Human genes 0.000 description 7
- 108700019961 Neoplasm Genes Proteins 0.000 description 7
- 206010005003 Bladder cancer Diseases 0.000 description 5
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 5
- 208000005017 glioblastoma Diseases 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 201000005112 urinary bladder cancer Diseases 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 206010033128 Ovarian cancer Diseases 0.000 description 3
- 206010061535 Ovarian neoplasm Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 102000003839 Human Proteins Human genes 0.000 description 2
- 108090000144 Human Proteins Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 235000012459 muffins Nutrition 0.000 description 2
- 230000004850 protein–protein interaction Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011275 oncology therapy Methods 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于局部和全局的网络中心性分析的癌症驱动基因预测方法,包括以下步骤:S1:对标准化的体细胞突变数据和基因表达数据进行预处理,表达成基因‑矩阵的形式;S2:使用预处理完成的数据对下载的PPI网络加权;S3:模型构建,使用改进的重启随机游走算法分析网络的全局和局部特征;S4:使用构建好的模型对癌症数据集进行预测,以获取驱动基因的排名向量,实现对癌症驱动基因的预测。还公开了一种基于局部和全局的网络中心性分析的癌症驱动基因预测系统。本发明能够更好地识别驱动基因,大大提高对癌症驱动基因预测的精度,为癌症的诊断和精准医疗的发展做出了贡献。
Description
技术领域
本发明涉及生物信息计算领域,特别是涉及一种基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统。
背景技术
作为世界上最致命的疾病之一,癌症致病机理复杂,至今人类一直在不断的研究,目前人们普遍认为癌症是由一些体细胞突变引起的,这些突变中的一些赋予细胞生长和阳性选择优势,引起强烈的增殖和肿瘤。还有绝大多数的体细胞突变是中性的或引起细胞凋亡并不影响癌症的发生和发展也不会转化为癌细胞,所以区分哪些突变对肿瘤患者的发生和发展起作用是目前癌症治疗的主要目标之一。基于这一目标,很多识别驱动基因的算法应运而生,近年来基于网络识别驱动基因的方法越来越重要,也取得了较好的结果。然而,在网络中的无论是最短路径的长度还是节点的度,都不能反映整个网络的拓扑性质。为了改进这些策略,研究人员开始使用多种类型的中心性来提取局部和全局的拓扑性质。基于随机游动的方法表明,全局拓扑结构比局部信息对疾病基因预测更有价值。因此本发明设计新算法整合了局部和全局的网络特征来更好地识别驱动基因。另外,基于网络中心度识别网络中关键节点的方法忽略了基因节点的属性特征、邻居之间的拓扑影响、先验知识的影响以及网络本身的属性等。此外,除了基因组的数据外,还需要考虑其他组学的数据。
为了提高预测精度,需要对不同类型的数据进行适当的整合,以弥补它们的不足,可以使用多组学数据来增强预测。因此,通过设计一个可以整合多组学数据来增强网络的性能,并通过随机游走算法得到局部和全局拓扑结构信息的算法来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统,能够更好地对癌症数据进行驱动基因的预测与分类。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于局部和全局的网络中心性分析的癌症驱动基因预测方法,包括以下步骤:
S1:对标准化的体细胞突变数据和基因表达数据进行预处理,表达成基因-矩阵的形式;
S2:使用预处理后的数据对下载的PPI网络加权;
S3:模型构建,使用改进的重启随机游走算法通过控制跳转步长分析网络的全局和局部特征;
S4:使用构建好的模型对癌症数据集进行预测,以获取驱动基因的排名向量,实现对癌症驱动基因的预测。
在本发明一个较佳实施例中,所述体细胞突变数据包括单核苷酸变异数据、染色体畸变数据。
进一步的,对所述体细胞突变数据进行预处理的步骤包括:
S101:去除体细胞单核苷酸变异数据中“变异分类”项为“沉默”的基因,从染色体畸变数据的扩增片段和删除片段中选择基因,提取拷贝数变异信息;
S102:将体细胞突变数据汇总在一个二进制突变基因-患者矩阵M中,在矩阵M中行表示基因,列表示癌症样本。
在本发明一个较佳实施例中,对所述基因表达数据进行预处理的步骤包括:
S111:采用k近邻对表达数中存在值为NA的数据进行填充;
S112:根据每个基因在所有样本中的表达分布为高斯分布的假设,将表达数据转换成差异表达基因列表;
S113:收集每个患者的差异表达基因列表以获得全部患者集中的差异表达基因列表,将基因表达数据处理成差异表达基因-患者的矩阵D,其中Dij表示差异表达基因i在患者j中的表达值。
在本发明一个较佳实施例中,步骤S2的具体步骤包括:
S201:输入预处理后的体细胞突变数据,根据得到的突变基因-患者矩阵M,计算突变基因的突变得分,其中,每个基因i的突变分数M(i)表示突变对癌症的贡献,定义为:
Ki为突变基因i的所有发生突变的患者集合,Nk是样本k中突变基因的总数,Nmax为所有样本中突变基因的最大数目,如果基因i在所有样本中没有突变,即Ki为空,则M(i)被赋予一个不大于任何突变基因的背景突变评分;
S202:输入预处理完成的基因表达数据,根据差异表达基因-患者的矩阵D,计算两个基因之间的皮尔森相关系数:
其中,xi和xj分别代表基因i和基因j的表达量,N代表样本数,利用R语言的cor()函数计算PCC值,将基因i和j之间的PCC值作为节点i和j在网络中的权值;
S203:整合突变得分M(i)和PCC,以此计算基因之间的相互作用分数来为PPI网络加权,加强随机游走算法中的初始概率P0 t;
M(i)和M(j)分别表示基因i和j的突变得分,wij表示网络的边缘权重,所述边缘权重使用基因之间的皮尔森相关系数。
在本发明一个较佳实施例中,步骤S3的具体步骤包括:
S301:在加权的PPI网络上使用随机游走算法遍历网络节点,并将PPI网络的权值作为随机游走的初始概率P0 t;
S302:采用反馈中心性代替随机游走算法的跳转概率,通过控制随机游走的步长,得到在不同的步长下网络分析的结果;
S303:整合不同步长所得到的结果,通过递归的方法得到在已知的驱动基因验证下精度趋近于1的结果,并返回不同步长所占的权值,整合公式如下:
score=w1P(1)+w2P(2)+w3P(3)
其中,P(1)代表步长为2的重启随机游走算法计算的节点向量,P(2)表示的是步长为3,P(3)表示的是迭代趋于平稳并且步长小于1000的结果;
通过整合不同步长的RWR算法的结果,能够识别网络中的重要的基因节点。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种基于局部和全局的网络中心性分析的癌症驱动基因预测系统,包括:
数据预处理模块,用于对标准化的体细胞突变数据和基因表达数据进行预处理,表达成基因-矩阵的形式;
网络加权模块,用于使用预处理后的数据对下载的PPI网络加权;
模型构建与分析模块,用于模型构建,使用改进的重启随机游走算法通过控制跳转步长分析网络的全局和局部特征;
模型预测模块,用于使用构建好的模型对癌症数据集进行预测,以获取驱动基因的排名向量,实现对癌症驱动基因的预测。
本发明的有益效果是:
(1)基于网络的分析方法在识别驱动基因方面存在网络背景知识不完整,本发明使用基因突变和表达数据来为网络加权,提高识别驱动基因的精度;
(2)随机游走算法是在游走的过程中是等概率的跳转到相邻节点的,这样可能会使得结果陷入局部最优的情况,本发明使用反馈中心性来代替跳转的概率;
(3)网络中心性分析方法容易忽略那些节点度不高但作用很关键的节点,我们通过改变随机游走算法的步长,得到网络局部和全局分析,更好的表征网络中的关键节点;
(4)本发明在识别驱动基因方面达到较好的性能,不仅能够识别那些显著突变的驱动基因,还可以识别罕见突变的驱动基因,大大提高对癌症驱动基因预测的精度,为癌症的诊断和精准医疗的发展做出了贡献。
附图说明
图1是本发明基于局部和全局的网络中心性分析的癌症驱动基因预测方法的流程图;
图2是本发明与基于网络的方法(MECoRank、DNMax和DNSum)的实验结果对比图;
图3是本发明与其它方法(SCS,Frequency和OncoIMPACT)的实验结果对比图;
图4是所述基于局部和全局的网络中心性分析的癌症驱动基因预测系统的结构框图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种基于局部和全局的网络中心性分析的癌症驱动基因预测方法,包括以下步骤:
S1:对标准化的体细胞突变数据和基因表达数据进行预处理,表达成基因-矩阵的形式;
优选的,从癌症基因组图谱(TCGA)数据库中下载标准化的体细胞突变数据和基因表达数据。进一步的,所述体细胞突变数据包括单核苷酸变异(SNVs)和染色体畸变(CNVs)。从研究充分的癌症基因普查(CGC)数据库中获得已经验证的癌症基因作为正样本(即驱动基因),默认为不在已知的癌症基因阳性集中的所有其他的基因为负样本(即乘客基因)。
具体的,对所述体细胞突变数据进行预处理的步骤包括:
S101:去除体细胞单核苷酸变异数据中“变异分类”项为“沉默”的基因,从染色体畸变数据的扩增片段和删除片段中选择基因,提取拷贝数变异(CNV)信息;
S102:将体细胞突变数据汇总在一个二进制突变基因-患者矩阵M中,在矩阵M中行表示基因,列表示癌症样本。对于基因i,如果至少一个病人身上发生突变,则M(i,j)=1,否则M(i,j)=0。
具体的,对所述基因表达数据进行预处理的步骤包括:
S111:采用k近邻对表达数中存在值为NA(not available)的数据进行填充;
S112:根据每个基因在所有样本中的表达分布为高斯分布的假设,将表达数据转换成差异表达基因(DEGs)列表;
为了表明每个患者的基因差异,计算配对肿瘤与正常样本之间基因表达的log2倍变化,绝对值大于1的基因定义为DEGs;
S113:收集每个患者的差异表达基因列表以获得全部患者集中的差异表达基因列表,将基因表达数据处理成差异表达基因-患者的矩阵D,其中Dij表示差异表达基因i在患者j中的表达值。
S2:使用预处理后的数据对下载的PPI网络加权;
首先下载PPI网络(蛋白质-蛋白质相互作用,Protein-Protein Interaction,PPI)作为突变基因与DEGs的交互图,只要在PPI网络中存在基因i和j的边缘,则基因i和j就是存在交互网络中。本步骤中构建了一个以突变的基因作为源节点,DEGs作为一个目标节点的交互网络,通过计算为交互网络赋予权值,加强网络的性能。具体步骤包括:
S201:输入预处理后的体细胞突变数据,根据得到的突变基因-患者矩阵M,计算突变基因的突变得分,其中,每个基因i的突变分数M(i)表示突变对癌症的贡献,定义为:
Ki为突变基因i的所有发生突变的患者集合,Nk是样本k中突变基因的总数,Nmax为所有样本中突变基因的最大数目。如果基因i在所有样本中没有突变,即Ki为空,则M(i)被赋予一个不大于任何突变基因的背景突变评分(BMS);
S202:输入预处理完成的基因表达数据,根据差异表达基因-患者的矩阵D,计算两个基因之间的皮尔森相关系数:
其中,xi和xj分别代表基因i和基因j的表达量,N代表样本数,利用R函数中的cor()函数计算PCC值,将基因i和j之间的PCC值作为节点i和j在网络中的权值;然后计算突变基因的突变得分,整合突变得分M(i)和PCC以此计算基因之间的相互作用分数来加强随机游走算法中的初始概率P0 t。
S203:整合突变得分M(i)和PCC,以此计算基因之间的相互作用分数来为PPI网络加权,加强随机游走算法中的初始概率P0 t;
M(i)和M(j)分别表示基因i和j的突变得分,wij表示网络的边缘权重,所述边缘权重使用基因之间的皮尔森相关系数。这里整合了基因组的突变数据和转录组的表达数据来增强随机游走过程中的初始概率P0 t。
S3:模型构建,使用改进的重启随机游走算法分析网络的全局和局部特征;原理如下:
基于中心性的方法在一定程度上提高了疾病基因的预测,在疾病基因预测中最成功的中心性是反馈中心性,如Katz中心性。一个节点的中心性取决于其相邻节点的中心性,相邻节点的中心性进一步取决于其相邻节点的中心性。因此,使用反馈中心性的方法也与使用基于随机游走的方法相似的策略来预测疾病基因。本示例中使用重启的随机游走算法通过控制游走的步长得到网络的局部和全局的特征。
使用随机漫步来预测疾病基因的算法,对于给定的基因g,用P0表示先验信息,其中P0(g)=1表示基因g是已知的驱动基因,P0(g)=0表示g是乘客基因。随机游走的公式如下:
Pt+1=WPt=WtP0
其中W为PPI网络的列归一化邻接矩阵。如果W是一个随机矩阵,这个过程等价于网络上的随机漫步。如果允许每一步以r的概率重新开始随机漫步,可以得到RWR算法如下:
Pt+1=(1-r)WPt+rP0
其中Pt在稳定状态下包含了每个基因与疾病相关的概率。如果为不同的路径长度设置不同的权值,随机行走可能会更可控,从而产生更好的预测。控制步长为2和3得到局部预测的结果,然后设置最大游走步长为1000或结果趋于平稳,作为全局的拓扑结果。另一个问题是,本示例中改变了随机游走的概率矩阵,使节点在随机跳转的时候不是等概率的选择邻居节点之一,而是用邻居节点的ketz中心性作为跳转概率。
通过控制随机游走的步长,得到在不同的步长下网络分析的结果。设置迭代次数为2次,这样可以计算基因邻居和邻居的邻居的信息。设置迭代步长为3,使用三级邻居迭代的属性代替节点在网络中的地位。将迭代次数设置为1000次,并控制损失函数阈值为0.00001,这样得到趋于稳定的全局网络分析的结果。整合不同步长所得到的结果,通过递归的方法得到在已知的驱动基因验证下精度(Precision)最好的结果,即精度趋近于1的结果,并返回不同步长所占的权值(w1、w2、w3)。整合公式如下:
score=w1P(1)+w2P(2)+w3P(3)
在上式中,P(1)代表步长为2的重启随机游走算法计算的节点向量,P(2)表示的是步长为3,P(3)表示的是迭代趋于平稳并且步长小于1000的结果。然后将各个步长的结果向量迭代加和,找到使得实验结果是最好的一组参数搭配,根据最好的得分排序驱动基因。通过整合不同步长的RWR的结果,可以更好的地识别网络中的重要的基因节点。
随机游走算法是在游走的过程中是等概率的跳转到相邻节点的,这样可能会使得结果陷入局部最优的情况,本发明使用反馈中心性来代替跳转的概率;另外基于网络的分析方法在识别驱动基因方面存在网络背景知识不完整,本发明使用基因突变和表达数据来为网络加权。
S4:使用构建好的模型对癌症数据集进行预测,以获取驱动基因的排名向量,实现对癌症驱动基因的预测。
当有外部数据要进行预测时,经过数据预处理和网络加权计算后,可以直接输入到模型中进行预测,获得癌症数据的候选驱动基因。
本实施例中,使用了两种类型的数据:编码区体细胞突变数据和基因表达数据。特别是编码区体细胞突变数据包括CNVs和SNVs。这些数据来自328个胶质母细胞瘤(GBM)样本、379个膀胱癌(BLCA)样本、252个前列腺癌(PRAD)样本和316个卵巢癌(OVARIA)样本,并从TCGA数据门户网站(https://tcga-data.nci.nih.gov/tcga/)下载。本示例中只使用了包含这两种情况的样本。癌症是一种多组基因相互作用的疾病,这些基因不仅与单个基因有关,而且在某些分子网络中相互作用,在示例中,所采用的基因相互作用网络都可能是从一个关于人类蛋白的参考资料库(human protein reference database,本文记为HPRD)下载的,其中包含9617个基因和74078个相互作用边。构建无向无权图G(V,E)作为实验中的参考网络,其中V表示网络中的基因节点,E表示基因之间的边,当基因i与基因j存在相关性时,Gij=1,否则Gij=0。例如,卵巢癌数据集包括来自316个卵巢患者,他们都有体细胞突变数据和基因表达数据,其中有5309个差异表达基因和5705个突变基因映射在基因相互作用网络上。
在缺乏基本事实的情况下,使用标准灵敏度/特定基准技术进行定量测量是不切实际的。为了帮助评估本发明结果的质量,本实施例从研究充分的癌症基因普查(CGC)数据库中获得已知的驱动基因,CGC是一个将与癌症因果相关的突变基因进行编目的数据库,在许多癌症研究中被广泛作为基准。在本实施例中,将其作为标准参考列表,CGC中共包含了616个已知驱动基因的列表,版本为(09/26/2016)。
对于每次比较,本发明均使用三种测量方法(精度Precision、召回率Recall和Flscore),这三种测量方法以排名前N个基因为基础。
其中,TP(True positive)表示真阳性数目,即CGC中的驱动基因被正确预测为癌症驱动基因的数目,TN(True negative)表示真阴性数目,即不在CGC中的其他基因被正确预测为乘客基因的数目,FP(False positive)是假阳性的数目,即原本是在CGC中的驱动基因而被预测为乘客基因的数目,FN(False negative)是假阴性数目,即原本是乘客基因而被预测为驱动基因的数目。
这三种测量方法以排名前N个基因为基础。首先利用了TCGA提供的4种癌症数据集,即BLCA、GBM、OV和PRAD,测试方法区分驱动基因的能力,将排名前100的候选基因结果与基于网络的三种竞争方法进行比较,分别为MECoRank、DNMax和DNSum(MUFFIN中的两种方法)的排序结果进行比较。如图2所示,精度曲线、召回率曲线和F1score的分数表明,本发明所述方法优于其它的方法。如图的实验结果部分只展示了BLCA和GBM两种癌症的结果。
显然,一个驱动基因的算法排名越高,它的表现就越好。对于BLCA,在排名前100的候选驱动基因中,DNMax方法鉴定出31个基因在CGC中发现。DNSum鉴定出30个,MECoRank方法鉴定出33个,本发明所述方法鉴定出36个。F1分数精度指标的值是对于检测精度与方法召回比率的可靠调和平均值,如图2所示,可以看出,对于F1的曲线得分来说,本发明所述方法增加更快。本发明所述方法在前100个识别的驱动基因的精度,召回率和F1分数都显著优于MUFFIN和MECoRank方法。
对于GBM,在排名前100的候选驱动基因中,DNMax识别出36个基因在CGC中发现,DNSum方法识别出23个,MECoRank方法识别出33个,本发明所述方法识别出39个。值得注意的是,本发明所述方法在其50个排名靠前的候选基因中检索到的已知驱动基因数量与MECoRank在其100个排名靠前的候选基因中检索到的已知驱动基因数量大致相同,比DNSum在其前100个识别的候选基因中在CGC中发现的还多5个。本发明所述方法通过其20个、40个、60个、80个、100个排名靠前的候选基因,比其他方法识别出更多的已知癌症基因,在预测驱动基因方面达到了较好的精度。另外,F1的曲线得分本发明所述方法高于DNSum上升至30%。
为了评估本发明所述方法的有效性,除了将它与基于网络的方法进行比较外,还将本发明所述方法与其它的基于各种原理的方法进行了比较,使用相同的数据和相同的参考癌症基因集,将本发明所述方法与SCS,Frequency和OncoIMPACT进行比较,其中SCS是基于单个病人特异性的识别驱动基因的方法,对于它的结果,本实施例取在整体上的投票结果。前述已经证明了本发明所述方法优于基于网络的基因排序的方法,与其它的方法进行比较时,也得到了同样的预期结果。这些结果表明,本发明所述方法不仅为顶级候选基因提供了与当前最先进的基因中心算法一样高的精确度性,而且通过保持对排名候选基因的高灵敏度,为发现新癌症基因提供了实质上更多的机会。如图3所示,这里展示了在PRAD和OV癌症数据上的效果。在CGC参考集上验证其它两个癌症数据集时也得到了类似的结果。
本发明实施例还提供一种基于局部和全局的网络中心性分析的癌症驱动基因预测系统,包括:
数据预处理模块,用于对标准化的体细胞突变数据和基因表达数据进行预处理,表达成基因-矩阵的形式;
网络加权模块,用于使用预处理后的数据对下载的PPI网络加权;
模型构建与分析模块,用于模型构建,使用改进的重启随机游走算法通过控制跳转步长分析网络的全局和局部特征;
模型预测模块,用于使用构建好的模型对癌症数据集进行预测,以获取驱动基因的排名向量,实现对癌症驱动基因的预测。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种基于局部和全局的网络中心性分析的癌症驱动基因预测方法,其特征在于,包括以下步骤:
S1:对标准化的体细胞突变数据和基因表达数据进行预处理,表达成基因-矩阵的形式;
S2:使用预处理后的数据对下载的PPI网络加权;具体步骤包括:
S201:输入预处理后的体细胞突变数据,根据得到的突变基因-患者矩阵M,计算突变基因的突变得分,其中,每个基因i的突变分数M(i)表示突变对癌症的贡献,定义为:
Ki为突变基因i的所有发生突变的患者集合,Nk是样本k中突变基因的总数,Nmax为所有样本中突变基因的最大数目,如果基因i在所有样本中没有突变,即Ki为空,则M(i)被赋予一个不大于任何突变基因的背景突变评分;
S202:输入预处理完成的基因表达数据,根据差异表达基因-患者的矩阵D,计算两个基因之间的皮尔森相关系数:
其中,xi和xj分别代表基因i和基因j的表达量,N代表样本数,利用R语言中的cor()函数计算PCC值,将基因i和j之间的PCC值作为节点i和j在网络中的权值;
S203:整合突变得分M(i)和PCC,以此计算基因之间的相互作用分数来为PPI网络加权,加强随机游走算法中的初始概率P0 t;
M(i)和M(j)分别表示基因i和j的突变得分,wij表示网络的边缘权重,所述边缘权重使用基因之间的皮尔森相关系数
S3:模型构建,使用改进的重启随机游走算法通过控制跳转步长分析网络的全局和局部特征;具体步骤包括:
S301:在加权的PPI网络上使用随机游走算法遍历网络节点,并将PPI网络的权值作为随机游走的初始概率P0 t;
S302:采用反馈中心性代替随机游走算法的跳转概率,通过控制随机游走的步长,得到在不同的步长下网络分析的结果;
S303:整合不同步长所得到的结果,通过递归的方法得到在已知的驱动基因验证下精度趋近于1的结果,并返回不同步长所占的权值,整合公式如下:
score=w1P(1)+w2P(2)+w3P(3)
其中,P(1)代表步长为2的重启随机游走算法计算的节点向量,P(2)表示的是步长为3,P(3)表示的是迭代趋于平稳并且步长小于1000的结果;
通过整合不同步长的RWR算法的结果,能够识别网络中的重要的基因节点;
S4:使用构建好的模型对癌症数据集进行预测,以获取驱动基因的排名向量,实现对癌症驱动基因的预测。
2.根据权利要求1所述的基于局部和全局的网络中心性分析的癌症驱动基因预测方法,其特征在于,所述体细胞突变数据包括单核苷酸变异数据、染色体畸变数据。
3.根据权利要求2所述的基于局部和全局的网络中心性分析的癌症驱动基因预测方法,其特征在于,对所述体细胞突变数据进行预处理的步骤包括:
S101:去除体细胞单核苷酸变异数据中“变异分类”项为“沉默”的基因,从染色体畸变数据的扩增片段和删除片段中选择基因,提取拷贝数变异信息;
S102:将体细胞突变数据汇总在一个二进制突变基因-患者矩阵M中,在矩阵M中行表示基因,列表示癌症样本。
4.根据权利要求1所述的基于局部和全局的网络中心性分析的癌症驱动基因预测方法,其特征在于,对所述基因表达数据进行预处理的步骤包括:
S111:采用k近邻对表达数中存在值为NA的数据进行填充;
S112:根据每个基因在所有样本中的表达分布为高斯分布的假设,将表达数据转换成差异表达基因列表;
S113:收集每个患者的差异表达基因列表以获得全部患者集中的差异表达基因列表,将基因表达数据处理成差异表达基因-患者的矩阵D,其中Dij表示差异表达基因i在患者j中的表达值。
5.一种基于局部和全局的网络中心性分析的癌症驱动基因预测系统,采用如权利要求1至4任一项所述的基于局部和全局的网络中心性分析的癌症驱动基因预测方法,其特征在于,包括:
数据预处理模块,用于对标准化的体细胞突变数据和基因表达数据进行预处理,表达成基因-矩阵的形式;
网络加权模块,用于使用预处理完成的数据对下载的PPI网络加权;
模型构建与分析模块,用于模型构建,使用改进的重启随机游走算法通过控制跳转步长分析网络的全局和局部特征;
模型预测模块,用于使用构建好的模型对癌症数据集进行预测,以获取驱动基因的排名向量,实现对癌症驱动基因的预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638436.3A CN113488104B (zh) | 2021-06-08 | 2021-06-08 | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638436.3A CN113488104B (zh) | 2021-06-08 | 2021-06-08 | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113488104A CN113488104A (zh) | 2021-10-08 |
CN113488104B true CN113488104B (zh) | 2024-06-18 |
Family
ID=77934453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110638436.3A Active CN113488104B (zh) | 2021-06-08 | 2021-06-08 | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488104B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627963B (zh) * | 2022-05-16 | 2022-08-30 | 北京肿瘤医院(北京大学肿瘤医院) | 蛋白数据填充方法、系统、计算机设备及可读存储介质 |
CN115019891B (zh) * | 2022-06-08 | 2023-07-07 | 郑州大学 | 一种基于半监督图神经网络的个体驱动基因预测方法 |
CN115171779B (zh) * | 2022-07-13 | 2023-09-22 | 浙江大学 | 基于图注意力网络和多组学融合的癌症驱动基因预测装置 |
CN115497563B (zh) * | 2022-11-18 | 2023-04-07 | 山东大学 | 一种癌症驱动基因识别方法、系统、存储介质及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573410A (zh) * | 2015-01-20 | 2015-04-29 | 合肥工业大学 | 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101816649B1 (ko) * | 2015-08-06 | 2018-01-09 | 광주과학기술원 | 부분 공분산 선택 기반의 암 유발 유전자를 식별하기 위한 컴퓨터의 데이터 처리방법 및 부분 공분산 선택 기반의 암 유발 유전자의 식별방법 |
US20170154163A1 (en) * | 2015-12-01 | 2017-06-01 | Ramot At Tel-Aviv University Ltd. | Clinically relevant synthetic lethality based method and system for cancer prognosis and therapy |
CN110782947A (zh) * | 2019-10-18 | 2020-02-11 | 湖南大学 | 基于蛋白质序列功能区域的癌症驱动识别 |
CN110942803A (zh) * | 2019-11-22 | 2020-03-31 | 中南林业科技大学 | 一种LncRNA和环境因素关联关系的高效预测方法 |
-
2021
- 2021-06-08 CN CN202110638436.3A patent/CN113488104B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573410A (zh) * | 2015-01-20 | 2015-04-29 | 合肥工业大学 | 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法 |
Non-Patent Citations (1)
Title |
---|
基于PCA和神经网络的多形性胶质母细胞瘤驱动基因预测模型;周莉;常菁;郭;张艺;王志丹;;现代生物医学进展;20171130(第33期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113488104A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113488104B (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
Koo et al. | A Review for Detecting Gene‐Gene Interactions Using Machine Learning Methods in Genetic Epidemiology | |
CN115171779B (zh) | 基于图注意力网络和多组学融合的癌症驱动基因预测装置 | |
Larranaga et al. | Machine learning in bioinformatics | |
Hwang et al. | A heterogeneous label propagation algorithm for disease gene discovery | |
Niu et al. | GMNN2CD: identification of circRNA–disease associations based on variational inference and graph Markov neural networks | |
US20220130541A1 (en) | Disease-gene prioritization method and system | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN110021341B (zh) | 一种基于异构网络的gpcr药物和靶向通路的预测方法 | |
Wang et al. | IIRWR: internal inclined random walk with restart for LncRNA-disease association prediction | |
US20210174906A1 (en) | Systems And Methods For Prioritizing The Selection Of Targeted Genes Associated With Diseases For Drug Discovery Based On Human Data | |
Al Kindhi et al. | Hybrid K-means, fuzzy C-means, and hierarchical clustering for DNA hepatitis C virus trend mutation analysis | |
Zhao et al. | Whale optimized mixed kernel function of support vector machine for colorectal cancer diagnosis | |
Lei et al. | Relational completion based non-negative matrix factorization for predicting metabolite-disease associations | |
CN114913916A (zh) | 预测新冠病毒适应药物的药物重定位方法 | |
CN111145830A (zh) | 基于网络传播的蛋白质功能预测方法 | |
Yong et al. | Discovery of small protein complexes from PPI networks with size-specific supervised weighting | |
Ghosh et al. | Classification of gene expression patterns using a novel type-2 fuzzy multigranulation-based SVM model for the recognition of cancer mediating biomarkers | |
Qu et al. | Prediction of diabetic protein markers based on an ensemble method | |
Su et al. | An efficient computational model for large-scale prediction of protein–protein interactions based on accurate and scalable graph embedding | |
CN117198408A (zh) | 一种多模型综合集成药物重定位系统及方法 | |
CN116798653A (zh) | 药物相互作用预测方法、装置、电子设备及存储介质 | |
Xu et al. | Identifying protein complexes with fuzzy machine learning model | |
Hvidsten | A tutorial-based guide to the ROSETTA system: A Rough Set Toolkit for Analysis of Data | |
Zhang et al. | Data mining methods in Omics-based biomarker discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |