CN115019884B - 一种融合多组学数据的网络标志物识别方法 - Google Patents
一种融合多组学数据的网络标志物识别方法 Download PDFInfo
- Publication number
- CN115019884B CN115019884B CN202210524968.9A CN202210524968A CN115019884B CN 115019884 B CN115019884 B CN 115019884B CN 202210524968 A CN202210524968 A CN 202210524968A CN 115019884 B CN115019884 B CN 115019884B
- Authority
- CN
- China
- Prior art keywords
- gene
- network
- data
- protein
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000003550 marker Substances 0.000 title claims abstract description 5
- 239000000126 substance Substances 0.000 title claims abstract description 4
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 143
- 230000014509 gene expression Effects 0.000 claims abstract description 32
- 201000010099 disease Diseases 0.000 claims abstract description 31
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 31
- 230000006916 protein interaction Effects 0.000 claims abstract description 25
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 208000024827 Alzheimer disease Diseases 0.000 claims abstract description 7
- 206010064571 Gene mutation Diseases 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000033228 biological regulation Effects 0.000 claims description 15
- 102000004169 proteins and genes Human genes 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000035772 mutation Effects 0.000 claims description 10
- 238000012353 t test Methods 0.000 claims description 9
- 208000010877 cognitive disease Diseases 0.000 claims description 5
- 238000000692 Student's t-test Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 4
- 208000028698 Cognitive impairment Diseases 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009792 diffusion process Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000005295 random walk Methods 0.000 claims description 3
- 150000001413 amino acids Chemical class 0.000 claims description 2
- 230000000704 physical effect Effects 0.000 claims description 2
- 230000004853 protein function Effects 0.000 claims description 2
- 230000001717 pathogenic effect Effects 0.000 abstract description 4
- 239000002773 nucleotide Substances 0.000 abstract description 2
- 125000003729 nucleotide group Chemical group 0.000 abstract description 2
- 108010026552 Proteome Proteins 0.000 abstract 1
- 230000000750 progressive effect Effects 0.000 abstract 1
- 108700005075 Regulator Genes Proteins 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 230000031018 biological processes and functions Effects 0.000 description 5
- 230000004879 molecular function Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008506 pathogenesis Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 102100022145 Collagen alpha-1(IV) chain Human genes 0.000 description 2
- 102100036213 Collagen alpha-2(I) chain Human genes 0.000 description 2
- 101000901150 Homo sapiens Collagen alpha-1(IV) chain Proteins 0.000 description 2
- 101000875067 Homo sapiens Collagen alpha-2(I) chain Proteins 0.000 description 2
- 101000777293 Homo sapiens Serine/threonine-protein kinase Chk1 Proteins 0.000 description 2
- 102100031081 Serine/threonine-protein kinase Chk1 Human genes 0.000 description 2
- 230000008827 biological function Effects 0.000 description 2
- 230000008236 biological pathway Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000003102 growth factor Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- SVDVJBWDBYSQLO-UHFFFAOYSA-N 5-(4-hydroxy-3-methoxyphenyl)-5-phenylimidazolidine-2,4-dione Chemical compound C1=C(O)C(OC)=CC(C2(C(NC(=O)N2)=O)C=2C=CC=CC=2)=C1 SVDVJBWDBYSQLO-UHFFFAOYSA-N 0.000 description 1
- 102100034111 Activin receptor type-1 Human genes 0.000 description 1
- 108010092778 Autophagy-Related Protein 7 Proteins 0.000 description 1
- 102000014835 CACNA1H Human genes 0.000 description 1
- 108700020472 CDC20 Proteins 0.000 description 1
- 102100021851 Calbindin Human genes 0.000 description 1
- 102100025232 Calcium/calmodulin-dependent protein kinase type II subunit beta Human genes 0.000 description 1
- 102100021633 Cathepsin B Human genes 0.000 description 1
- 101150023302 Cdc20 gene Proteins 0.000 description 1
- 102100025053 Cell division control protein 45 homolog Human genes 0.000 description 1
- 102100038099 Cell division cycle protein 20 homolog Human genes 0.000 description 1
- 102100033144 Cyclin-dependent kinase 18 Human genes 0.000 description 1
- 102100038387 Cystatin-SN Human genes 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 102100037730 Dynein regulatory complex protein 8 Human genes 0.000 description 1
- 102100027126 Echinoderm microtubule-associated protein-like 2 Human genes 0.000 description 1
- 102100028924 Formin-2 Human genes 0.000 description 1
- 102100039289 Glial fibrillary acidic protein Human genes 0.000 description 1
- 101710193519 Glial fibrillary acidic protein Proteins 0.000 description 1
- 102100027706 Heterogeneous nuclear ribonucleoprotein D-like Human genes 0.000 description 1
- 101000799140 Homo sapiens Activin receptor type-1 Proteins 0.000 description 1
- 101000898082 Homo sapiens Calbindin Proteins 0.000 description 1
- 101001077352 Homo sapiens Calcium/calmodulin-dependent protein kinase type II subunit beta Proteins 0.000 description 1
- 101000898449 Homo sapiens Cathepsin B Proteins 0.000 description 1
- 101000934421 Homo sapiens Cell division control protein 45 homolog Proteins 0.000 description 1
- 101000884768 Homo sapiens Cystatin-SN Proteins 0.000 description 1
- 101000880830 Homo sapiens Dynein regulatory complex protein 8 Proteins 0.000 description 1
- 101001057942 Homo sapiens Echinoderm microtubule-associated protein-like 2 Proteins 0.000 description 1
- 101001059398 Homo sapiens Formin-2 Proteins 0.000 description 1
- 101001081145 Homo sapiens Heterogeneous nuclear ribonucleoprotein D-like Proteins 0.000 description 1
- 101001076604 Homo sapiens Inhibin alpha chain Proteins 0.000 description 1
- 101000937642 Homo sapiens Malonyl-CoA-acyl carrier protein transacylase, mitochondrial Proteins 0.000 description 1
- 101000891579 Homo sapiens Microtubule-associated protein tau Proteins 0.000 description 1
- 101000616738 Homo sapiens NAD-dependent protein deacetylase sirtuin-6 Proteins 0.000 description 1
- 101001109719 Homo sapiens Nucleophosmin Proteins 0.000 description 1
- 101000613490 Homo sapiens Paired box protein Pax-3 Proteins 0.000 description 1
- 101000827313 Homo sapiens Peptidyl-prolyl cis-trans isomerase FKBP3 Proteins 0.000 description 1
- 101000997283 Homo sapiens Potassium voltage-gated channel subfamily C member 1 Proteins 0.000 description 1
- 101000945496 Homo sapiens Proliferation marker protein Ki-67 Proteins 0.000 description 1
- 101001137451 Homo sapiens Pyruvate dehydrogenase E1 component subunit beta, mitochondrial Proteins 0.000 description 1
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 1
- 101000703608 Homo sapiens RIB43A-like with coiled-coils protein 2 Proteins 0.000 description 1
- 101000863815 Homo sapiens SHC SH2 domain-binding protein 1 Proteins 0.000 description 1
- 101000807354 Homo sapiens Ubiquitin-conjugating enzyme E2 C Proteins 0.000 description 1
- 101000742596 Homo sapiens Vascular endothelial growth factor C Proteins 0.000 description 1
- 101000932804 Homo sapiens Voltage-dependent T-type calcium channel subunit alpha-1H Proteins 0.000 description 1
- 102100025885 Inhibin alpha chain Human genes 0.000 description 1
- 102100027329 Malonyl-CoA-acyl carrier protein transacylase, mitochondrial Human genes 0.000 description 1
- 102100026741 Microsomal glutathione S-transferase 1 Human genes 0.000 description 1
- 102100040243 Microtubule-associated protein tau Human genes 0.000 description 1
- 102100021840 NAD-dependent protein deacetylase sirtuin-6 Human genes 0.000 description 1
- 102000004213 Neuropilin-2 Human genes 0.000 description 1
- 108090000770 Neuropilin-2 Proteins 0.000 description 1
- 102100022678 Nucleophosmin Human genes 0.000 description 1
- 108010039798 PCTAIRE-3 protein kinase Proteins 0.000 description 1
- 102100040891 Paired box protein Pax-3 Human genes 0.000 description 1
- 102100023846 Peptidyl-prolyl cis-trans isomerase FKBP3 Human genes 0.000 description 1
- 108700019535 Phosphoprotein Phosphatases Proteins 0.000 description 1
- 102000045595 Phosphoprotein Phosphatases Human genes 0.000 description 1
- 102100034308 Potassium voltage-gated channel subfamily C member 1 Human genes 0.000 description 1
- 102100034836 Proliferation marker protein Ki-67 Human genes 0.000 description 1
- 102100035711 Pyruvate dehydrogenase E1 component subunit beta, mitochondrial Human genes 0.000 description 1
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 1
- 102100030683 RIB43A-like with coiled-coils protein 2 Human genes 0.000 description 1
- 102100029989 SHC SH2 domain-binding protein 1 Human genes 0.000 description 1
- 108010017324 STAT3 Transcription Factor Proteins 0.000 description 1
- 101100010298 Schizosaccharomyces pombe (strain 972 / ATCC 24843) pol2 gene Proteins 0.000 description 1
- 102100024040 Signal transducer and activator of transcription 3 Human genes 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- 102100037256 Ubiquitin-conjugating enzyme E2 C Human genes 0.000 description 1
- 102100022979 Ubiquitin-like modifier-activating enzyme ATG7 Human genes 0.000 description 1
- 102100038232 Vascular endothelial growth factor C Human genes 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 108010057085 cytokine receptors Proteins 0.000 description 1
- 102000003675 cytokine receptors Human genes 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 210000005046 glial fibrillary acidic protein Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 108010074917 microsomal glutathione S-transferase-I Proteins 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000004001 molecular interaction Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 208000030683 polygenic disease Diseases 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000003556 vascular endothelial cell Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Physiology (AREA)
- Ecology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种融合多组学数据的网络标志物识别方法,该方法同时融合全基因组数据(单核苷酸多态性)、转录组(基因表达谱数据)以及蛋白组(蛋白质相互作用网络数据),能够比较正常组与患者组之间基因相互作用网络的差异以识别网络标志物,这些网络标志物可能包含了潜在的致病基因。为验证该方法的有效性,将其应用识别阿尔茨海默症不同疾病进展期的网络标志物,结果表明该方法所提取的网络标志物具有较好的样本区分能力。
Description
技术领域
本发明涉及生物信息领域,具体涉及网络标志物识别方法。
背景技术
现代医学表明,很多疾病都是多基因疾病(由多个基因控制的疾病)。一组基因突变会导致多个生物功能发生病变,这些生物功能相互交织在一起,共同调控着某一生理活动。通过分析不同患者组的高通量组学数据,传统方法可以较容易地发现不同疾病表型背后潜在的差异基因。例如对疾病各个阶段患者的基因表达数据进行统计学意义上的倍数分析或t检验能够找出疾病背后的差异表达基因。但是,这些方法的缺点也很明显,即找出的差异基因数量很大,且无法保证这些差异基因都与疾病有关。此外,这些差异基因大部分都是孤立的,不能有效的解释疾病背后复杂的致病机理。
随着生物学的不断发展以及计算机运算速度的不断提高,基于生物分子网络的新方法开始被应用于分析复杂疾病背后的致病机理。例如,通过分析患者组与对照组的生物分子网络,可以得到差异子网,这极大地减少了差异基因的数目,同时精确地缩小了致病基因的寻找范围。然而,尽管基于生物分子网络的分析方法能够找到疾病相关的基因子网络,但是仍然无法准确全面地从子网络中找出致病基因。目前,许多数据挖掘方法只关注了基因间的静态调控关系,忽略了动态变化的信息。实际上,复杂疾病背后的基因调控网络往往会随着生物体内外环境的改变而动态变化。因此,为了更加准确地挖掘出疾病的致病基因,人们开始研究疾病相关分子网络的动态变化。另一方面,通过融合各种组学数据和生物分子网络数据对复杂疾病进行系统的分析,也逐渐成为了一个研究热点。因为,融合不同组学的数据能够增加数据的维度,降低数据中噪音的干扰,使数据包含更多的有效信息,从而极大地提高致病基因发现的准确率。但值得注意的是,整合使用这些异构数据,给实现这一目标的方法开发带来了巨大的挑战。
发明内容
传统的方法虽然能够检测出疾病表型背后的差异基因,但检测出的基因数量往往较多,且基因间关联性未知,不能解释疾病的致病机理。本发明旨在通过分析正常组与患病组之间的基因差异网络,找出导致疾病的潜在基因。本发明的方法结合基因表达数据、基因突变数据、蛋白质相互作用网络数据,考虑了基因间的关联信息,因此得到基因可解释性更好。
本发明采用以下技术方案:
(1)处理基因突变数据,将样本分为三组,即CN(对照组)、MCI(早期认知障碍)、AD(阿尔茨海默病患病组);使用VEP工具中的SIFT分数评估全基因组测序文件中的每个SNP,确定哪些遗传变异对于患者是有害的。基于氨基酸的序列同源性和物理性质,SIFT评估每个氨基酸被替代对蛋白质功能的影响。基因突变数据的表示形式如下:
其中,yk表示第k个样本的标签,k=c+m+a,c、m和a分别表示CN、MCI和AD阶段的样本数量,n表示基因个数。当样本i中基因j上的SNP对该基因编码的蛋白质影响程度高时,设置sij=2,影响程度中等时,设置sij=1表示,其他情况设置为0。
(2)处理人类PPIN(蛋白质相互作用网络)数据,将网络中的蛋白质名称转换为对应的基因名称。蛋白质相互作用数据的表示形式如下:
其中,Wn*n为蛋白质相互作用网络的邻接矩阵的表示形式,该矩阵为对称矩阵,值为0或1,n表示基因的个数。当两个蛋白质间存在相互作用时,设置wij=1,否则设置wij=0。
(3)由于使用VEP工具打分后的基因突变数据过于稀疏,因此需要进一步将基因突变数据映射到蛋白质互作网络上应用网络传播算法以平滑每个基因的突变得分。网络传播算法是一种在网络上模拟随机游走的算法,其公式定义如下:
Ft+1=αFtA′+(1-α)F0 (1)
A′=D-1A (2)
其中,F0是患者的原始基因突变矩阵,A是蛋白质互作网络的邻接矩阵,D是对角矩阵,D(i,i)为矩阵A第i行行和,α是一个调节参数,控制变异信号在网络传播过程中扩散的距离,α的最佳值取决于网络结构。传播函数Ft以t=[0,1,2,…]迭代运行,直到Ft+1收敛(||Ft+1-Ft||2<1×10-6,其中,||*||2为矩阵范数)。在经过网络传播之后,将所得到矩阵Ft按行使用分位数归一化,以确保每个患者的平滑突变曲线大致符合相同的分布。
(4)处理基因表达数据,对基因突变数据集、基因表达数据集、蛋白质互作网络数据集的基因取交集,确保在接下来的分析中所有基因都存在于每个样本中。基因表达数据的表示形式如下:
其中,yk表示第k个样本的标签,k=c+m+a,c、m和a分别表示CN、MCI和AD阶段的样本数量,n表示基因个数,pij表示样本i中基因j的表达量值。
(5)将基因表达数据与基因突变数据映射到蛋白质互作网络上,然后分组分析基因间的相互作用和协同调控,并推断潜在的基因调控网络机制。通过测量疾病阶段与对照组之间的基因调控变化,研究基因调控网络和表型变化的生物学通路。定义疾病阶段a与健康的对照组b中基因A与基因B之间的差异表达调控如下:
P(AB)=|ρa(AB)-ρb(AB)| (3)
其中ρ为两个变量的皮尔森相关系数,定义如下:
当两组中的基因A与基因B的差异表达调控P(AB)≥0.7时(阈值0.7不固定,可根据实验做适当调整),认定基因A与基因B在疾病阶段和对照组中的表达调控方式发生了显著变化。
(6)对患病组与对照组进行差异基因分析,使用t检验方法计算两个基因表达的统计量tg,通过查表得到p值,定义p值小于0.0005的基因为差异基因。假设患病组与疾病组的基因突变得分和/>是相等的,则零假设为:
对应的备选假设为:
t检验的计算公式是:
其中,
这里,ni是组i(即患病组或对照组)中的样本数,表示为基因g在组i中第j个样本的基因突变的得分值。通过计算tg的值,就可以得到p值。
本发明的有益效果:与现有的传统方法相比,本发明在考虑了基因表达数据之外,还结合了蛋白质相互作用网络数据与基因突变数据。引入蛋白质相互作用网络数据,考虑了基因间的关联信息;引入基因突变数据,考虑了基因突变对疾病进展的影响。因此,通过融合这些不同组学数据,本发明有效地解决了传统方法找出的生物标志物之间关联性较差的问题。
附图说明
图1为本发明基于差异网络分析的阿尔茨海默病网络标志物标识方法流程图。
图2为本发明方法找出的候选基因与随机选择的基因对CN和MCI分类的ROC曲线。
图3为本发明方法找出的候选基因与随机选择的基因对CN和AD分类的ROC曲线。
图4为本发明方法找出的候选基因与随机选择的基因对MCI和AD分类的ROC曲线。
图5为候选基因的GO富集BP(Biological Process)分析结果。
图6为候选基因的GO富集MF(Molecular Function)分析结果。
具体实施方式
在本发明中,首先,根据全基因组测序数据对每个样本全基因组范围内所有单核苷酸多态性位点(SNP)进行基因功能损害程度评估,接着对基因突变数据使用网络传播算法以保证基因突变评分的波动趋于平滑。然后,使用人类PPIN(蛋白质相互作用网络)数据构建疾病不同阶段的分子相互网络,网络上的一个节点对应一个基因,节点值为该阶段所有样本上该基因突变打分的平均值;网络中的边代表基因间的相互作用,边的权重为该阶段所有患者基因表达数据中两个基因间的皮尔森相关系数,可得到不同疾病阶段的基因网络表达数据。最后,对这些网络进行差异网络分析,其中,两个网络上的差异节点(即差异基因)由t检验确定;两个网络中的差异边由皮尔逊相关系数之差的绝对值确定。
为了使本发明的目的、技术方案及优点更加清楚明白,下面将结合附图及实施例,进一步详细说明本发明的目的以及技术方案。需注意,此处所描述的具体实施例仅仅用以解释本发明,并不对本发明的保护范围构成任何限定。
如图1所示,先对三种数据集进行处理,并构建基因表达网络用于后续分析。
1.处理基因突变数据:从ADNI数据库下载了全基因组测序VCF文件,该数据包含809个样本,平均每个样本持有超过3.88亿个SNP。将样本分为三组,分别是CN(对照组)、MCI(早期认知障碍)、AD(阿尔茨海默病患病组)。由于基因突变数据存储的是所有基因的SNP位点信息,因此使用VEP工具中的SIFT分数(设置SIFT<0.05)评估每个突变基因对患者的影响程度。处理后的基因突变数据集包含809个样本和16163个基因。使用矩阵来存储处理后的结果。矩阵的形式如下:
其中,当sij=2,表示样本i中基因j上的SNP对该基因编码的蛋白质影响程度高,sij=1表示影响程度中等,其他情况为0;
2.处理蛋白质相互作用网络数据:从STRING数据库中下载人类PPIN数据,为保证后续结果的可靠性,从中筛选出具有实验佐证的蛋白质相互作用对,接着将筛选后的数据中的蛋白质名称转化为对应的基因名称。蛋白质相互相作用网络使用邻接矩阵的形式表示,当两个蛋白质间存在相互作用时,设置wij=1,否则设置wij=0。
3.由于使用VEP工具打分后的基因突变数据过于稀疏,因此需要进一步将基因突变数据映射到蛋白质互作网络上应用网络传播算法以平滑每个基因的突变得分。网络传播算法是一种在网络上模拟随机游走的算法,其公式定义如下:
Ft+1=αFtA′+(1-α)F0 (1)
A′=D-1A (2)
其中,F0是患者的原始基因突变矩阵,A是蛋白质互作网络的邻接矩阵,D是对角矩阵,D(i,i)为矩阵A第i行行和,α是一个调节参数,控制变异信号在网络传播过程中扩散的距离,α的最佳值取决于网络结构。传播函数Ft以t=[0,1,2,…]迭代运行,直到Ft+1收敛(||Ft+1-Ft||2<1×10-6,其中,||*||2为矩阵范数)。在经过网络传播之后,将所得到矩阵Ft按行使用分位数归一化,以确保每个患者的平滑突变曲线大致符合相同的分布。
4.处理基因表达数据:从ADNI数据库中下载基因表达数据集,该基因表达数据集总共包含746个样本和10061个基因,由于这些基因表达数据已经经过了标准化处理,所以可以直接使用。接着对基因突变数据集、基因表达数据集、蛋白质互作网络数据集的基因取交集,确保在接下来的分析中所有基因都存在于每个样本中。最后得到了715个共同样本(CN:247例,MCI:428例,AD:40例)和8007个共同基因。基因表达数据采用矩阵存储,形式如下:
5.将步骤1、4处理得到的基因突变数据和基因表达数据映射到蛋白质互作网络上,然后分组分析基因间的相互作用和协同调控,并推断潜在的基因调控网络机制。通过测量疾病与正常条件之间的基因相关性变化,研究基因调控网络和表型变化的生物学通路。定义疾病阶段a与健康的对照组b中基因A与基因B之间的差异表达调控如下:
P(AB)=|ρa(AB)-ρb(AB)| (3)
其中ρ为两个变量的皮尔森相关系数,定义如下:
当P(AB)≥0.70时(阈值0.7不是固定,可根据实验做适当调整),认为基因A与基因B在疾病阶段和对照组中的表达调控方式发生了显著变化。输出调控方式发生显著变化的基因对。
6.对患病组与疾病组进行差异基因分析,使用t检验方法来寻找差异基因。
假设患病组与疾病组的基因突变得分和/>是相等的,则零假设为:
对应的备选假设为:
t检验的计算公式是:
其中,
这里,ni是组i(即患病组或对照组)中的样本数,表示为基因g在组i中第j个样本的基因突变的得分值。通过计算tg的值,就可以得到p值。定义p值小于0.0005的基因为差异基因。按p值排列,输出符合条件的基因作为候选基因。
实验结果:分析CN与MCI的基因网络,选择score大于0.45的调控基因对以及p<0.0005的差异基因,共找到4个差异调控基因对和25个差异基因,使用ROC曲线进行评估,结果如图2所示,本发明方法找出的候选基因曲面下面积达到了0.72,远大于随机选择基因的曲面下面积;分析CN与AD的基因网络,选择score大于0.6的调控基因对,共找到11个差异调控基因对。使用ROC曲线进行评估,结果如图3所示,候选基因的曲面下面积远大于随机选择基因;分析MCI与AD的基因网络,选择score大于0.7的调控基因对,共找到6个差异调控基因对。使用ROC曲线进行评估,结果如图4所示,候选基因的曲面下面积依然远大于随机选择基因。
为进一步验证候选基因的有效性,对候选基因进行GO富集BP(生物过程)、MF(分子功能)分析,结果如图5、图6所示,候选基因的生物过程主要集中在神经元的发育和死亡、血管内皮细胞的增殖和迁移、肽基苏氨酸磷酸化、蛋白质结合和生长因子活性等;分子功能主要集中在蛋白磷酸酶结合、细胞因子受体结合、生长因子结合等。这表明候选基因参与了疾病相关的重要信号通路。因此本发明找出的候选基因具有较高的可靠性。
CN与MCI中差异调控基因对
Gene1 | Gene2 | Score |
COL1A2 | COL4A1 | 0.56 |
CDC20 | CHEK1 | 0.48 |
CDC45 | CHEK1 | 0.47 |
MKI67 | SHCBP1 | 0.48 |
CN与AD中差异调控基因对
Gene1 | Gene2 | Score |
AKT1 | PAX3 | 0.60 |
MAPT | PDHB | 0.62 |
CTSB | CST1 | 0.65 |
CACNA1H | KCNC1 | 0.62 |
NRP2 | VEGFC | 0.73 |
CAMK2B | NGF | 0.70 |
STAT3 | MGST1 | 0.65 |
ACVR1 | INHA | 0.60 |
RIBC2 | GFAP | 0.62 |
UBE2C | ATG7 | 0.70 |
FKBP3 | CALB1 | 0.64 |
MCI与AD中差异调控基因对
Gene1 | Gene2 | Score |
COL1A2 | COL4A1 | 0.79 |
SIRT6 | XPC | 0.78 |
CDK18 | EML2 | 0.74 |
HNRNPDL | MCAT | 0.70 |
FMN2 | EFCAB2 | 0.71 |
XPC | NPM1 | 0.70 |
Claims (7)
1.一种融合多组学数据的网络标志物识别方法,包括以下步骤:
步骤一、基于氨基酸的序列同源性和物理性质,评估全基因组测序文件中的样本i中基因j上的SNP对蛋白质功能的影响,得到基因突变数据集:
其中,sij表示影响程度得分,n表示基因个数,yk表示第k个样本的标签,k=c+m+a,c、m和a分别表示对照组CN、早期认知障碍MCI和阿尔茨海默病患病组AD阶段的样本数量;
步骤二、将蛋白质相互作用网络PPIN数据中的蛋白质名称转换为对应的基因名称,形成蛋白质相互作用网络数据集:
其中,Wn*n为蛋白质相互作用网络的邻接矩阵的表示形式,wij表示蛋白质i和蛋白质j之间的相互作用得分,n表示基因的个数;
步骤三、将所述基因突变数据映射到所述蛋白质相互作用网络上应用网络传播算法以平滑每个基因的影响程度得分,得到平滑后的基因突变数据集;
步骤四、对基因表达数据集、所述平滑后的基因突变数据集、所述蛋白质相互作用网络数据集的基因取交集,得到用于分析的数据集;所述基因表达数据集表示为:
其中,pij表示样本i中基因j的表达量值,n表示基因个数,yk表示第k个样本的标签,k=c+m+a,c、m和a分别表示对照组CN、早期认知障碍MCI和阿尔茨海默病患病组AD阶段的样本数量;
步骤五、将所述用于分析的数据集中基因表达数据以及平滑后的基因突变数据映射到蛋白质相互作用网络上;定义疾病阶段a与健康的对照组b中基因A与基因B之间的差异表达调控如下:
P(AB)=|ρa(AB)-ρb(AB)| (3)
其中ρ为两个变量的皮尔森相关系数,定义如下:
ρa(AB)表示基因A与基因B在疾病阶段的皮尔森相关系数,其中疾病阶段指早期认知障碍MCI和阿尔茨海默病患病组AD;
ρb(AB)表示基因A与基因B在对照组的皮尔森相关系数,其中对照组指对照组CN;
当P(AB)大于等于第一阈值时,认为基因A与基因B在疾病阶段和对照组中的表达调控方式发生了显著变化,输出调控方式发生显著变化的基因对;
步骤六、对患病组与对照组进行差异基因分析,使用t检验方法计算两个基因表达的统计量tg,进而得到p值,定义p值小于第二阈值的基因为差异基因,输出所述差异基因。
2.根据权利要求1所述的方法,其特征在于,所述步骤一中sij的值为0、1或2,当sij=2时表示样本i中基因j上的SNP对该基因编码的蛋白质影响程度高,当sij=1时表示影响程度中等,当sij=0时表示其他情况。
3.根据权利要求1所述的方法,其特征在于,所述步骤二中wij的值为0或1,当wij=1时表示蛋白质i和蛋白质j之间具有相互作用,当wij=0时表示没有相互作用。
4.根据权利要求1所述的方法,其特征在于,所述步骤三中网络传播算法是一种在网络上模拟随机游走的算法,其公式定义如下:
Ft+1=αFtA'+(1-α)F0 (1)
A'=D-1A (2)
其中,F0是患者的原始基因突变矩阵,A是蛋白质互作网络的邻接矩阵,D是对角矩阵,D(i,i)为矩阵A第i行行和,α是控制变异信号在网络传播过程中扩散的距离的调节参数;传播函数Ft以t=[0,1,2,…]迭代运行,直到Ft+1收敛。
5.根据权利要求1所述的方法,其特征在于,所述步骤五中第一阈值为0.70。
6.根据权利要求1所述的方法,其特征在于,所述步骤六中t检验方法包括:假设患病组与对照组的影响程度得分和/>是相等的,则零假设为:
对应的备选假设为:
t检验的计算公式是:
其中,
其中,ni是组i,组i表示患病组或对照组中的样本数,表示为基因g在组i中第j个样本的影响程度得分值;通过计算tg的值,进而通过查表得到p值。
7.根据权利要求1所述的方法,其特征在于,所述步骤六中第二阈值为0.0005。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210524968.9A CN115019884B (zh) | 2022-05-13 | 2022-05-13 | 一种融合多组学数据的网络标志物识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210524968.9A CN115019884B (zh) | 2022-05-13 | 2022-05-13 | 一种融合多组学数据的网络标志物识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019884A CN115019884A (zh) | 2022-09-06 |
CN115019884B true CN115019884B (zh) | 2023-11-03 |
Family
ID=83068415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210524968.9A Active CN115019884B (zh) | 2022-05-13 | 2022-05-13 | 一种融合多组学数据的网络标志物识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019884B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117457068B (zh) * | 2023-06-30 | 2024-05-24 | 上海睿璟生物科技有限公司 | 基于多组学的功能性生物标记物筛选方法、系统、终端及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766697A (zh) * | 2017-09-18 | 2018-03-06 | 西安电子科技大学 | 一种泛癌症基因表达和甲基化关联分析方法 |
WO2019117400A1 (ko) * | 2017-12-11 | 2019-06-20 | 연세대학교 산학협력단 | 유전자 네트워크 구축 장치 및 방법 |
CN110444248A (zh) * | 2019-07-22 | 2019-11-12 | 山东大学 | 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统 |
CN110827916A (zh) * | 2019-10-24 | 2020-02-21 | 南方医科大学南方医院 | 一种精神分裂症基因-基因互作网络及其构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180166170A1 (en) * | 2016-12-12 | 2018-06-14 | Konstantinos Theofilatos | Generalized computational framework and system for integrative prediction of biomarkers |
-
2022
- 2022-05-13 CN CN202210524968.9A patent/CN115019884B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766697A (zh) * | 2017-09-18 | 2018-03-06 | 西安电子科技大学 | 一种泛癌症基因表达和甲基化关联分析方法 |
WO2019117400A1 (ko) * | 2017-12-11 | 2019-06-20 | 연세대학교 산학협력단 | 유전자 네트워크 구축 장치 및 방법 |
CN110444248A (zh) * | 2019-07-22 | 2019-11-12 | 山东大学 | 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统 |
CN110827916A (zh) * | 2019-10-24 | 2020-02-21 | 南方医科大学南方医院 | 一种精神分裂症基因-基因互作网络及其构建方法 |
Non-Patent Citations (1)
Title |
---|
复杂疾病的组学数据挖掘方法研究;李雄;;邵阳学院学报(自然科学版)(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115019884A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deb et al. | Reliable classification of two-class cancer data using evolutionary algorithms | |
CN112802548B (zh) | 单样本全基因组预测等位基因特异性拷贝数变异的方法 | |
Fridlyand et al. | Hidden Markov models approach to the analysis of array CGH data | |
Peng et al. | Capsule network based modeling of multi-omics data for discovery of breast cancer-related genes | |
CN112750502B (zh) | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 | |
CN112466404B (zh) | 一种宏基因组重叠群无监督聚类方法及系统 | |
KR101949286B1 (ko) | 암 환자의 유전체 염기서열 변이 정보와 생존 정보를 이용한 맞춤형 약물 선택 방법 및 시스템 | |
JP2023535962A (ja) | 低カバレッジ次世代シーケンシングデータにおける相同修復欠損などの染色体空間不安定性を同定する方法 | |
Hu et al. | Classifying the multi-omics data of gastric cancer using a deep feature selection method | |
CN115019884B (zh) | 一种融合多组学数据的网络标志物识别方法 | |
CN111312334A (zh) | 一种影响细胞间通讯的受体-配体系统分析方法 | |
Binder et al. | Analysis of large-scale OMIC data using self organizing maps | |
CN114927213A (zh) | 多癌种早筛模型构建方法以及检测装置 | |
CN111180013A (zh) | 检测血液病融合基因的装置 | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
CN111785319A (zh) | 基于差异表达数据的药物重定位方法 | |
WO2019237230A1 (zh) | 确定待测样本类型的方法及系统 | |
Zhang et al. | nSEA: n-Node Subnetwork Enumeration Algorithm Identifies Lower Grade Glioma Subtypes with Altered Subnetworks and Distinct Prognostics | |
Choudhury et al. | Machine Learning and Bioinformatics Models to Identify Gene Expression Patterns of Glioblastoma Associated with Disease Progression and Mortality | |
Mohammed et al. | Novel algorithms for accurate DNA base-calling | |
JP2022534236A (ja) | 多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 | |
WO2018210877A1 (en) | Method for analysing cell-free nucleic acids | |
Baca-López et al. | Information-theoretical analysis of gene expression data to infer transcriptional interactions | |
Binder et al. | Integrated Multi-Omics Maps of Lower-Grade Gliomas. Cancers 2022, 14, 2797 | |
Zheng et al. | Gene Network Cancer Prediction Method Based on Multi-group Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |