CN112735537A - 一种新的脑胶质瘤分子分型方法 - Google Patents
一种新的脑胶质瘤分子分型方法 Download PDFInfo
- Publication number
- CN112735537A CN112735537A CN202110231797.6A CN202110231797A CN112735537A CN 112735537 A CN112735537 A CN 112735537A CN 202110231797 A CN202110231797 A CN 202110231797A CN 112735537 A CN112735537 A CN 112735537A
- Authority
- CN
- China
- Prior art keywords
- mutation
- gpst
- gpv
- data
- gri
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 201000007983 brain glioma Diseases 0.000 title claims abstract description 34
- 230000014509 gene expression Effects 0.000 claims abstract description 16
- 229940045513 CTLA4 antagonist Drugs 0.000 claims abstract description 4
- 210000001744 T-lymphocyte Anatomy 0.000 claims abstract description 4
- 238000002659 cell therapy Methods 0.000 claims abstract description 4
- 230000035772 mutation Effects 0.000 claims description 81
- 108090000623 proteins and genes Proteins 0.000 claims description 51
- 206010018338 Glioma Diseases 0.000 claims description 28
- 208000032612 Glial tumor Diseases 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 21
- SECXISVLQFMRJM-UHFFFAOYSA-N N-Methylpyrrolidone Chemical compound CN1CCCC1=O SECXISVLQFMRJM-UHFFFAOYSA-N 0.000 claims description 18
- 208000005017 glioblastoma Diseases 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000011987 methylation Effects 0.000 claims description 17
- 238000007069 methylation reaction Methods 0.000 claims description 17
- 206010069754 Acquired gene mutation Diseases 0.000 claims description 12
- 102100039545 Homeobox protein Hox-D11 Human genes 0.000 claims description 12
- 101000962591 Homo sapiens Homeobox protein Hox-D11 Proteins 0.000 claims description 12
- 230000037439 somatic mutation Effects 0.000 claims description 12
- 238000012217 deletion Methods 0.000 claims description 11
- 238000009169 immunotherapy Methods 0.000 claims description 11
- 230000004083 survival effect Effects 0.000 claims description 10
- 230000037429 base substitution Effects 0.000 claims description 9
- 238000004393 prognosis Methods 0.000 claims description 9
- 230000037432 silent mutation Effects 0.000 claims description 9
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 8
- 229940085606 rembrandt Drugs 0.000 claims description 8
- 210000004027 cell Anatomy 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 7
- 101150043982 44 gene Proteins 0.000 claims description 6
- 101150076489 B gene Proteins 0.000 claims description 6
- 101000629622 Homo sapiens Serine-pyruvate aminotransferase Proteins 0.000 claims description 6
- 102100025825 Methylated-DNA-protein-cysteine methyltransferase Human genes 0.000 claims description 6
- 206010028980 Neoplasm Diseases 0.000 claims description 6
- 102100026842 Serine-pyruvate aminotransferase Human genes 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 201000011510 cancer Diseases 0.000 claims description 6
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 claims description 6
- 101150044508 key gene Proteins 0.000 claims description 6
- 108040008770 methylated-DNA-[protein]-cysteine S-methyltransferase activity proteins Proteins 0.000 claims description 6
- 208000037821 progressive disease Diseases 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000005778 DNA damage Effects 0.000 claims description 5
- 231100000277 DNA damage Toxicity 0.000 claims description 5
- 102100022649 Homeobox protein Hox-A6 Human genes 0.000 claims description 5
- 101001045083 Homo sapiens Homeobox protein Hox-A6 Proteins 0.000 claims description 5
- 101000702077 Homo sapiens Small proline-rich protein 2A Proteins 0.000 claims description 5
- 102100030314 Small proline-rich protein 2A Human genes 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 101001057154 Homo sapiens Melanoma-associated antigen D2 Proteins 0.000 claims description 4
- 102100027251 Melanoma-associated antigen D2 Human genes 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000036541 health Effects 0.000 claims description 4
- 210000001082 somatic cell Anatomy 0.000 claims description 4
- 102100024230 Dendritic cell-specific transmembrane protein Human genes 0.000 claims description 3
- 102100021469 Equilibrative nucleoside transporter 1 Human genes 0.000 claims description 3
- 101000832060 Homo sapiens Dendritic cell-specific transmembrane protein Proteins 0.000 claims description 3
- 101001044940 Homo sapiens Insulin-like growth factor-binding protein 2 Proteins 0.000 claims description 3
- 101000998126 Homo sapiens Interleukin-36 beta Proteins 0.000 claims description 3
- 101001057131 Homo sapiens Melanoma-associated antigen D4 Proteins 0.000 claims description 3
- 101000741894 Homo sapiens POTE ankyrin domain family member F Proteins 0.000 claims description 3
- 101000619121 Homo sapiens Serine protease 48 Proteins 0.000 claims description 3
- 101000800549 Homo sapiens Transcription factor 23 Proteins 0.000 claims description 3
- 101000939384 Homo sapiens Urocortin-2 Proteins 0.000 claims description 3
- 101000841325 Homo sapiens Urotensin-2 Proteins 0.000 claims description 3
- 102100022710 Insulin-like growth factor-binding protein 2 Human genes 0.000 claims description 3
- 102100033498 Interleukin-36 beta Human genes 0.000 claims description 3
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 claims description 3
- 102100027257 Melanoma-associated antigen D4 Human genes 0.000 claims description 3
- 102100038760 POTE ankyrin domain family member F Human genes 0.000 claims description 3
- 108091006551 SLC29A1 Proteins 0.000 claims description 3
- 108060007757 SLC6A18 Proteins 0.000 claims description 3
- 102000005026 SLC6A18 Human genes 0.000 claims description 3
- 108091006731 SLCO1B1 Proteins 0.000 claims description 3
- 102100022638 Serine protease 48 Human genes 0.000 claims description 3
- 102100027233 Solute carrier organic anion transporter family member 1B1 Human genes 0.000 claims description 3
- 102100033122 Transcription factor 23 Human genes 0.000 claims description 3
- 102100029097 Urotensin-2 Human genes 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 208000029824 high grade glioma Diseases 0.000 claims description 3
- 208000030173 low grade glioma Diseases 0.000 claims description 3
- 201000011614 malignant glioma Diseases 0.000 claims description 3
- 108020004999 messenger RNA Proteins 0.000 claims description 3
- 230000036961 partial effect Effects 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 108700026220 vif Genes Proteins 0.000 claims description 3
- 238000013103 analytical ultracentrifugation Methods 0.000 claims 2
- 101100446210 Drosophila melanogaster Fam92 gene Proteins 0.000 claims 1
- 101000987144 Homo sapiens Molybdenum cofactor sulfurase Proteins 0.000 claims 1
- 101000603422 Homo sapiens Nuclear pore complex-interacting protein family member A7 Proteins 0.000 claims 1
- 101001064774 Homo sapiens Peroxidasin-like protein Proteins 0.000 claims 1
- 101000983166 Homo sapiens Phospholipase A2 group V Proteins 0.000 claims 1
- 101000830183 Homo sapiens tRNA (guanine-N(7)-)-methyltransferase Proteins 0.000 claims 1
- 102100027983 Molybdenum cofactor sulfurase Human genes 0.000 claims 1
- 102100038840 Nuclear pore complex-interacting protein family member A7 Human genes 0.000 claims 1
- 102100031894 Peroxidasin-like protein Human genes 0.000 claims 1
- 102100026832 Phospholipase A2 group V Human genes 0.000 claims 1
- 102100025028 tRNA (guanine-N(7)-)-methyltransferase Human genes 0.000 claims 1
- 238000011084 recovery Methods 0.000 abstract description 5
- 230000001024 immunotherapeutic effect Effects 0.000 abstract 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 24
- 238000011160 research Methods 0.000 description 21
- GXJABQQUPOEUTA-RDJZCZTQSA-N bortezomib Chemical compound C([C@@H](C(=O)N[C@@H](CC(C)C)B(O)O)NC(=O)C=1N=CC=NC=1)C1=CC=CC=C1 GXJABQQUPOEUTA-RDJZCZTQSA-N 0.000 description 6
- 229960001467 bortezomib Drugs 0.000 description 6
- SDUQYLNIPVEERB-QPPQHZFASA-N gemcitabine Chemical compound O=C1N=C(N)C=CN1[C@H]1C(F)(F)[C@H](O)[C@@H](CO)O1 SDUQYLNIPVEERB-QPPQHZFASA-N 0.000 description 6
- 229960005277 gemcitabine Drugs 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 208000020372 Infective dermatitis associated with HTLV-1 Diseases 0.000 description 5
- 102100035041 Dimethylaniline monooxygenase [N-oxide-forming] 3 Human genes 0.000 description 4
- 101710187736 Dimethylaniline monooxygenase [N-oxide-forming] 3 Proteins 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 102100021528 BPI fold-containing family B member 4 Human genes 0.000 description 2
- 102100039361 Chondrosarcoma-associated gene 2/3 protein Human genes 0.000 description 2
- 102100030146 Epithelial membrane protein 3 Human genes 0.000 description 2
- 102100034523 Histone H4 Human genes 0.000 description 2
- 101000899066 Homo sapiens BPI fold-containing family B member 4 Proteins 0.000 description 2
- 101000745414 Homo sapiens Chondrosarcoma-associated gene 2/3 protein Proteins 0.000 description 2
- 101001011788 Homo sapiens Epithelial membrane protein 3 Proteins 0.000 description 2
- 101001067880 Homo sapiens Histone H4 Proteins 0.000 description 2
- 101000831930 Homo sapiens Stathmin domain-containing protein 1 Proteins 0.000 description 2
- 101000945505 Homo sapiens Uncharacterized protein C5orf46 Proteins 0.000 description 2
- 101001086872 Hydrogenobacter thermophilus (strain DSM 6534 / IAM 12695 / TK-6) Phosphoserine phosphatase 1 Proteins 0.000 description 2
- 241000700560 Molluscum contagiosum virus Species 0.000 description 2
- 102100024236 Stathmin domain-containing protein 1 Human genes 0.000 description 2
- BPEGJWRSRHCHSN-UHFFFAOYSA-N Temozolomide Chemical compound O=C1N(C)N=NC2=C(C(N)=O)N=CN21 BPEGJWRSRHCHSN-UHFFFAOYSA-N 0.000 description 2
- 102100034814 Uncharacterized protein C5orf46 Human genes 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 239000002246 antineoplastic agent Substances 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 229940044683 chemotherapy drug Drugs 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001959 radiotherapy Methods 0.000 description 2
- 229960004964 temozolomide Drugs 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012631 diagnostic technique Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007917 intracranial administration Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种新的脑胶质瘤分子分型方法,包括如下步骤:步骤一:收集数据,从数据库中获取基因表达谱和临床信息数据,从公开数据库收集了四个独立的免疫治疗队列,包括:①Roh队列:抗CTLA‑4、抗PD‑1治疗队列;②GSE100797:过继性T细胞治疗队列;③GSE78220:抗PD‑1治疗队列。本发明通过大量数据得到GRI值,不仅可以对不同的患者脑胶质瘤分子进行划分,而且提高了脑胶质瘤分子划分的精准度,方便辅助医生对患者进行不同类型的划分,利用不同的治疗方式对患者进行科学的治疗,提高患者的治疗康复率,解决了传统脑胶质瘤分子分型精准度低的问题。
Description
技术领域
本发明涉及脑胶质瘤技术领域,具体为一种新的脑胶质瘤分子分型方法。
背景技术
脑胶质瘤是最常见的颅内恶性肿瘤,具有高度的异质性,手术治疗辅以放疗和化疗的标准化方案是当前脑胶质瘤的主要治疗手段,但整体情况仍不理想,预后极差,特别是胶质母细胞瘤,在体细胞中,各种机制引起DNA损伤,进而发生体细胞突变,使得细胞基因组不断变化,各种类型的突变不断积累,形成一个个独特的突变积累组合,每种组合即为一种“突变特征”,突变特征系统地表征了导致癌症的突变积累,并将突变过程与DNA损伤机制、临床特点等联系起来,为深入分析和掌握肿瘤的分子特征提供了新的机会,鉴于此,我们以突变特征着手进行研究,从基因组变异的角度提出一种新的脑胶质瘤分子分型方法并进行初步转化,建立预测个体预后及免疫治疗反应的评估体系。
随着生物信息学的迅速发展和分子诊断技术的兴起,精密治疗和免疫治疗使胶质瘤的治疗摆脱目前的困境成为可能,将胶质瘤分为不同的分子表型,如IDH突变型和IDH野生型胶质瘤,1p/19q共缺失和1p/19q完整性胶质瘤,积累的证据表明,IDH突变和1p/19q 共缺失的胶质瘤患者对放疗和化疗相对敏感,预后良好,然而,这种分类只关注一种或几种基因组改变特征,它缺乏全局性的视角,也不能完全顾及胶质瘤的高分子异质性,因此,有必要对胶质瘤的基因组改变进行系统的研究,进行更加精细的分型传统的脑胶质瘤分子分型方法的局限性较大,无法精准的对患者进行分类,提升了患者治疗的难度。
因此亟需设计一种新的脑胶质瘤分子分型方法来解决上述问题。
发明内容
本发明的目的在于提供一种新的脑胶质瘤分子分型方法,以解决上述背景技术中提出的传统脑胶质瘤分子分型方法精准度低的问题。
为实现上述目的,本发明提供如下技术方案:一种新的脑胶质瘤分子分型方法,包括如下步骤:
步骤一:收集数据
从数据库中获取基因表达谱和临床信息数据,五个胶质瘤队列纳入本研究:TCGA-GBMLGG队列(n=892),三个CGGA队列(mRNA-array (n=301),mRNAseq_325(n=325)和mRNAseq_693(n=693))和 Rembrandt队列(n=475),从公开数据库收集了四个独立的免疫治疗队列,包括:①Roh队列:抗CTLA-4、抗PD-1治疗队列;② GSE100797:过继性T细胞治疗队列;③GSE78220:抗PD-1治疗队列;④GSE35640:抗MAGE-A3治疗队列,根据recistv1.1标准,完全缓解(CR)或部分缓解(PR)患者被视为免疫治疗有反应者,疾病稳定(SD)或疾病进展(PD)患者被视为免疫治疗无反应者,不可评估(NE)患者则被剔除;
步骤二:突变特征谱
突变特征库(第二版)聚焦于碱基置换突变,突变点的碱基置换包含六种类型:C>A,C>G,C>T,T>A,T>C和T>G,突变点两侧(5' 和3'端)各可搭配四种碱基(A、T、C、G),最终可产生96种可能的突变类型(6种突变位点的碱基替换类型×4种,5'碱基×4种, 3'碱基),在体细胞中,各种机制引起DNA损伤,进而发生体细胞突变,使得细胞基因组不断变化,各种类型的突变不断积累,最终,在96种突变类型上具有不同的积累,形成一个个独特的突变积累组合,检测到的每种组合即为一种“突变特征”;
步骤三:亚型识别
(一)、数据获取:从COSMIC网站获取获取每种突变特征的特征数据信息,从TCGA-LGG和TCGA-GBM获得的体细胞突变数据在去除沉默突变后用于构建每个个体的突变特征谱,参考基因组为h38
(二)、R包:DeconstructSigs和NMFpackage
(三)、方法
①移除突变数据中的沉默突变
②利用计算机技术将移除沉默突变的突变数据转化为突变环境矩阵
③使用DeconstructSigs包,分析每个样本中30个signature 的组成比例,参考的signature是COSMIC,cutoff值设置为0.06,标准化方式使用“exome2genome”,最终我们得到了一个矩阵(行为30个signature,列为每个样本,cell的值为signature在每个样本的比例,所有signature加起来刚好为1)
④使用NMF包进行提取和聚类分析,设置潜在的ranks=2:5,运算执行次数设置为50,method设置为‘lee’,最终通过从cophenetic 系数和轮廓系数决定最佳rank=4,如图1,即根据TCGA-GBMLGG队列中每个患者的突变特征谱,将胶质瘤分为四种分子亚型最优
⑤非负矩阵分解的一个特性是倾向于产生观察数据的稀疏表示,导致双聚类的自然应用,通过少量特征表征样本组,在NMF模型中,根据对每个样本贡献最大的基础组分(即在系数矩阵的每列中具有最大系数的基础组分)对样本进行分组,然后,通过根据基础矩阵计算的基础特异性评分选择的一组特征对每组样本进行表征,上述过程由NMF包实现,根据所有患者的突变特征谱,构建NMF 模型,并通过extractFeatures函数(方法设置为“max”)对最基本的特定特征进行提取,最终,患者分为4个基础组,并提取出11 种可表征每组样本的关键突变特征(mutational signature 1,3, 5,8,12,13,15,16,21,26和30),结果如图2所示,每种亚型都有特异的突变特征变量,而后,根据提取出的这11种最基础的突变特征,进行NMF聚类分析,将TCGA-GBMLGG队列的所有患者分为四种亚型,命名为C1,C2,C3和C4,如图3所示;
步骤四:胶质瘤风险指数(glioma risk index,GRI)的构建
①数据分析,TCGA-GBMLGG胶质瘤队列作为训练集进行建模;三个CGGA队列(mRNA-array(n=301),mRNAseq_325(n=325)和mRNAseq_693(n=693))
②筛选4种亚型之间的共同差异表达基因(differentially expressed genes,DEGs):分别将每一种亚型组与其他三个亚型组配对比较,使用edgeR软件包进行基因表达差异分析,标准为校正p值<0.05和|log2 FC|>1,结果:鉴定出四组DEGs后取交集,共识别出708个DEGs
③对708个DEGs做单因素cox回归分析,|1-HR|>0.5和 P-adjust<0.05的基因作为预后相关基因纳入下一步分析,(HR:危险比;P-adjust:校正P值),结果:一共提取到226个基因纳入下一步分析
④将这226个基因两两组合,形成基因对(gene pair),每对基因包含两个基因,A和B,表示为A|B,在一个样本中,若基因A 的表达值高于基因B,那么该A|B基因对的值标记为1,反之为0,这样的赋值设计的优势在于,只需要关注两个基因mRNA表达之间的数学关系,完全忽略了不同平台之间的批次效应,不需要定义截断值(cut-off值),增加了临床适用性,在TCGA队列中,通过上述赋值方法对每个样本中的所有基因对进行赋值,并剔除在80%以上样本中评分为全为0或全为1的基因对,最终得到一个由样本和基因对构成的二进制0/1矩阵,用于下一步骤的分析
⑤根据上述0/1矩阵,对其中包含的基因对进行Lasso回归,以降维并建模,最优模型由惩罚系数λ决定,当惩罚系数 lambda=0.07094148时,模型最优,最优模型包含了由36个基因组成的44个基因对基于这44个基因对
⑥GRI计算公式设计如下:
GRI=∑βi×GPV(i)
其中i为Lasso回归得到的关键基因对,GPV是i的赋值(0/1),β是i对应的Lasso回归系数,最终,GRI计算公式为:GRI=0.022 ×GPV(AGXT|BPIFB4)+0.002×GPV(AGXT|STMND1)+0.040×GPV (C5orf46|CSAG3)+0.031×GPV(CD70|FMO1)+0.070×GPV (DCSTAMP|FMO1)+-0.087×GPV(EDARADD|MAGED4)+0.051×GPV (EMP3|SOCS2)+0.234×GPV(EN1|FAT2)+0.076×GPV(EN1|PXDNL) +0.016×GPV(EN1|TDO2)+-0.020×GPV(ESR2|MAGED4)+0.138× GPV(FAM92B|FCAMR)+-0.285×GPV(FAT2|ITGBL1)+-0.160×GPV (FAT2|TMEM71)+-0.244×GPV(FAT2|WISP1)+-0.058×GPV (FMO1|HIST1H2BH)+-0.021×GPV(FMO1|HOXD11)+0.401×GPV (GPR1|KLRC1)+0.156×GPV(HCRT|PRSS48)+0.115×GPV (HCRT|SLC6A18)+0.055×GPV(HIST1H2AJ|SLC6A18)+0.019×GPV (HIST1H3C|RIPPLY3)+0.161×GPV(HIST1H3F|USP29)+0.270×GPV (HIST1H3G|PRSS48)+0.030×GPV(HIST1H3G|SLC6A18)+0.040× GPV(HIST1H3G|SLCO1B1)+0.098×GPV(HIST1H4B|SLCO1B1)+0.038 ×GPV(HIST1H4D|SLC6A18)+0.260×GPV(HIST1H4D|SPRR2A)+0.177 ×GPV(HOXA6|SLC6A18)+0.022×GPV(HOXA6|SPRR2A)+0.026×GPV (HOXD11|POTEF)+0.130×GPV(HOXD11|PRSS48)+0.038×GPV (HOXD11|TCF23)+0.007×GPV(HOXD11|UCN2)+0.207×GPV (IGFBP2|SLC29A1)+0.005×GPV(IL36B|SLCO1B1)+0.057×GPV (MAGED4|MOCOS)+-0.041×GPV(METTL1|PLA2G5)+0.093×GPV (NPIPA7|SLC6A18)+0.243×GPV(PAEP|SLCO1B1)+0.115×GPV(PLEKHN1|TNFSF11)+0.016×GPV(POTEI|POTEJ)+0.004×GPV (RBP1|SOCS2)
⑦用survminer包确定GRI最佳截断点0.8321341,根据此截断值,可将患者分为高、低GRI两组,Kaplan-Meier生存分析表明高 GRI患者的预后生存情况比低GRI患者差。
优选的,所述步骤一中数据来源从癌症基因组图谱(TCGA)和胶质瘤基因组图谱(CGGA)数据库获取,所述TCGA-GBM和TCGA-LGG 对应的体细胞突变数据、拷贝数变异数据和甲基化450K数据亦从 TCGA数据库中获取。
优选的,所述步骤二中“突变特征”收集的数量为30种,且将 30种“突变特征”绘制成表格进行对比。
优选的,所述临床特征包括胶质瘤级别分类(胶质母细胞瘤GBM/ 低级别胶质瘤LGG)、年龄(<60岁/≥60岁)、性别(男/女)、 IDH状态(突变型/野生型)、1p/19q(共缺失/无共缺失)、7+/10- (共发生/无共发生)和MGMT启动子甲基化(甲基化/无甲基化)在四种亚型中分布不同,从C1至C4,老年患者和高级别胶质瘤(GBM) 患者的百分比呈下降趋势,4个集群的性别分布无显著差异,C4的 IDH突变、1p/19q共缺失和MGMT启动子甲基化百分比最高。
优选的,所述步骤四中随机抽取一组数据,且将Rembrandt队列(n=475)作为测试集进行验证。
优选的,所述步骤四中利用计算机将数据输入,生成GRI初始模型,在利用计算机技术得到GRI的计算公式。
优选的,所述步骤四⑥中的GPV(A|B)即基因对的赋值,且这 44个A|B基因对即Lasso回归得到的44个关键基因对。
优选的,所述步骤四⑦中利用GRI预测1年、3年、5年、7年和9年生存状态的AUC分别为0.921、0.958、0.941、0.925和0.908,并与数据库中后期患者的健康程度进行对比,验证GRI预测的精准度。
与现有技术相比,本发明的有益效果是:
1、该脑胶质瘤分子分型方法通过大量数据得到GRI值,不仅可以对不同的患者脑胶质瘤分子进行划分,而且提高了脑胶质瘤分子划分的精准度,利用GRI对患者进行划分,方便辅助医生对患者进行不同类型的划分,利用不同的治疗方式对患者进行科学的治疗,提高患者的治疗康复率,解决了传统脑胶质瘤分子分型精准度低的问题。
2、该脑胶质瘤分子分型方法通过步骤一中数据来源从癌症基因组图谱(TCGA)和胶质瘤基因组图谱(CGGA)数据库获取,且 TCGA-GBM和TCGA-LGG对应的体细胞突变数据、拷贝数变异数据和甲基化450K数据亦从TCGA数据库中获取,提供研究数据的来源,避免数据造假,提高研究成果的可靠性,通过步骤二中“突变特征”收集的数量为30种,且将30种“突变特征”绘制成表格进行对比,提高数据分析的精准度,利用多组数据进行分析,避免研究出现偏差,造成个例的出现,提高科研的成果的精准度,通过使用 pRRophetic包,预测4个集群对吉西他滨和硼替佐米的整体敏感性,吉西他滨或硼替佐米与标准化疗药物替莫唑胺联合应用可使胶质瘤患者生存获益,本研究中通过半数抑制浓度(IC50)定量药物敏感性,IC50越低,敏感性越高,结果发现,C1亚型对硼替佐米更敏感, C3亚型对吉西他滨更敏感,方便不同类型的患者利用不同类型的治疗方式进行治疗,提高患者的康复率。
3、该脑胶质瘤分子分型方法通过Rembrandt队列(n=475)作为测试集进行验证,提高科研的严谨性,避免以点概面的显现出现,验证科研成果的精准度,通过利用计算机技术方便简化科研流程,同时提高数据分析的精准度,有利于快速的得到GRI的公式,通过公式中的变量进行解释,方便其他非科研人员对数据的理解,通过 GRI预测患者之后1年、3年、5年、7年和9年生存状态,并与数据库中后期患者的健康程度进行对比,验证GRI预测的精准度。
附图说明
图1为本发明cophenetic系数和轮廓系数的关系图;
图2为本发明多组突变特征变化特征图;
图3为本发明结构分析图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供的一种实施例:
一种新的脑胶质瘤分子分型方法,包括如下步骤:
步骤一:收集数据
从数据库中获取基因表达谱和临床信息数据,五个胶质瘤队列纳入本研究:TCGA-GBMLGG队列(n=892),三个CGGA队列(mRNA-array (n=301),mRNAseq_325(n=325)和mRNAseq_693(n=693))和 Rembrandt队列(n=475),从公开数据库收集了四个独立的免疫治疗队列,包括:①Roh队列:抗CTLA-4、抗PD-1治疗队列;② GSE100797:过继性T细胞治疗队列;③GSE78220:抗PD-1治疗队列;④GSE35640:抗MAGE-A3治疗队列,根据recistv1.1标准,完全缓解(CR)或部分缓解(PR)患者被视为免疫治疗有反应者,疾病稳定(SD)或疾病进展(PD)患者被视为免疫治疗无反应者,不可评估(NE)患者则被剔除;
步骤二:突变特征谱
突变特征库(第二版)聚焦于碱基置换突变,突变点的碱基置换包含六种类型:C>A,C>G,C>T,T>A,T>C和T>G,突变点两侧(5' 和3'端)各可搭配四种碱基(A、T、C、G),最终可产生96种可能的突变类型(6种突变位点的碱基替换类型×4种,5'碱基×4种, 3'碱基),在体细胞中,各种机制引起DNA损伤,进而发生体细胞突变,使得细胞基因组不断变化,各种类型的突变不断积累,最终,在96种突变类型上具有不同的积累,形成一个个独特的突变积累组合,检测到的每种组合即为一种“突变特征”;
步骤三:亚型识别
(一)、数据获取:从COSMIC网站获取获取每种突变特征的特征数据信息,从TCGA-LGG和TCGA-GBM获得的体细胞突变数据在去除沉默突变后用于构建每个个体的突变特征谱,参考基因组为h38
(二)、R包:DeconstructSigs和NMFpackage
(三)、方法
①移除突变数据中的沉默突变
②利用计算机技术将移除沉默突变的突变数据转化为突变环境矩阵
③使用DeconstructSigs包,分析每个样本中30个signature 的组成比例,参考的signature是COSMIC,cutoff值设置为0.06,标准化方式使用“exome2genome”,最终我们得到了一个矩阵(行为30个signature,列为每个样本,cell的值为signature在每个样本的比例,所有signature加起来刚好为1)
④使用NMF包进行提取和聚类分析,设置潜在的ranks=2:5,运算执行次数设置为50,method设置为‘lee’,最终通过从cophenetic 系数和轮廓系数决定最佳rank=4,如图1,即根据TCGA-GBMLGG队列中每个患者的突变特征谱,将胶质瘤分为四种分子亚型最优
⑤非负矩阵分解的一个特性是倾向于产生观察数据的稀疏表示,导致双聚类的自然应用,通过少量特征表征样本组,在NMF模型中,根据对每个样本贡献最大的基础组分(即在系数矩阵的每列中具有最大系数的基础组分)对样本进行分组,然后,通过根据基础矩阵计算的基础特异性评分选择的一组特征对每组样本进行表征,上述过程由NMF包实现,根据所有患者的突变特征谱,构建NMF 模型,并通过extractFeatures函数(方法设置为“max”)对最基本的特定特征进行提取,最终,患者分为4个基础组,并提取出11 种可表征每组样本的关键突变特征(mutational signature 1,3, 5,8,12,13,15,16,21,26和30),结果如图2所示,每种亚型都有特异的突变特征变量,而后,根据提取出的这11种最基础的突变特征,进行NMF聚类分析,将TCGA-GBMLGG队列的所有患者分为四种亚型,命名为C1,C2,C3和C4,如图3所示;
步骤四:胶质瘤风险指数(glioma risk index,GRI)的构建
①数据分析,TCGA-GBMLGG胶质瘤队列作为训练集进行建模;三个CGGA队列(mRNA-array(n=301),mRNAseq_325(n=325)和 mRNAseq_693(n=693))
②筛选4种亚型之间的共同差异表达基因(differentially expressed genes,DEGs):分别将每一种亚型组与其他三个亚型组配对比较,使用edgeR软件包进行基因表达差异分析,标准为校正p值<0.05和|log2 FC|>1,结果:鉴定出四组DEGs后取交集,共识别出708个DEGs
③对708个DEGs做单因素cox回归分析,|1-HR|>0.5和P-adjust<0.05的基因作为预后相关基因纳入下一步分析,(HR:危险比;P-adjust:校正P值),结果:一共提取到226个基因纳入下一步分析
④将这226个基因两两组合,形成基因对(gene pair),每对基因包含两个基因,A和B,表示为A|B,在一个样本中,若基因A 的表达值高于基因B,那么该A|B基因对的值标记为1,反之为0,这样的赋值设计的优势在于,只需要关注两个基因mRNA表达之间的数学关系,完全忽略了不同平台之间的批次效应,不需要定义截断值(cut-off值),增加了临床适用性,在TCGA队列中,通过上述赋值方法对每个样本中的所有基因对进行赋值,并剔除在80%以上样本中评分为全为0或全为1的基因对,最终得到一个由样本和基因对构成的二进制0/1矩阵,用于下一步骤的分析
⑤根据上述0/1矩阵,对其中包含的基因对进行Lasso回归,以降维并建模,最优模型由惩罚系数λ决定,当惩罚系数 lambda=0.07094148时,模型最优,最优模型包含了由36个基因组成的44个基因对基于这44个基因对
⑥GRI计算公式设计如下:
GRI=∑βi×GPV (i)
其中i为Lasso回归得到的关键基因对,GPV是i的赋值(0/1),β是i对应的Lasso回归系数,最终,GRI计算公式为:GRI=0.022 ×GPV(AGXT|BPIFB4)+0.002×GPV(AGXT|STMND1)+0.040×GPV (C5orf46|CSAG3)+0.031×GPV(CD70|FMO1)+0.070×GPV (DCSTAMP|FMO1)+-0.087×GPV(EDARADD|MAGED4)+0.051×GPV (EMP3|SOCS2)+0.234×GPV(EN1|FAT2)+0.076×GPV(EN1|PXDNL) +0.016×GPV(EN1|TDO2)+-0.020×GPV(ESR2|MAGED4)+0.138× GPV(FAM92B|FCAMR)+-0.285×GPV(FAT2|ITGBL1)+-0.160×GPV (FAT2|TMEM71)+-0.244×GPV(FAT2|WISP1)+-0.058×GPV (FMO1|HIST1H2BH)+-0.021×GPV(FMO1|HOXD11)+0.401×GPV (GPR1|KLRC1)+0.156×GPV(HCRT|PRSS48)+0.115×GPV (HCRT|SLC6A18)+0.055×GPV(HIST1H2AJ|SLC6A18)+0.019×GPV (HIST1H3C|RIPPLY3)+0.161×GPV(HIST1H3F|USP29)+0.270×GPV (HIST1H3G|PRSS48)+0.030×GPV(HIST1H3G|SLC6A18)+0.040× GPV(HIST1H3G|SLCO1B1)+0.098×GPV(HIST1H4B|SLCO1B1)+0.038 ×GPV(HIST1H4D|SLC6A18)+0.260×GPV(HIST1H4D|SPRR2A)+0.177 ×GPV(HOXA6|SLC6A18)+0.022×GPV(HOXA6|SPRR2A)+0.026×GPV (HOXD11|POTEF)+0.130×GPV(HOXD11|PRSS48)+0.038×GPV (HOXD11|TCF23)+0.007×GPV(HOXD11|UCN2)+0.207×GPV (IGFBP2|SLC29A1)+0.005×GPV(IL36B|SLCO1B1)+0.057×GPV (MAGED4|MOCOS)+-0.041×GPV(METTL1|PLA2G5)+0.093×GPV (NPIPA7|SLC6A18)+0.243×GPV(PAEP|SLCO1B1)+0.115×GPV(PLEKHN1|TNFSF11)+0.016×GPV(POTEI|POTEJ)+0.004×GPV (RBP1|SOCS2)
⑦用survminer包确定GRI最佳截断点0.8321341,根据此截断值,可将患者分为高、低GRI两组,Kaplan-Meier生存分析表明高GRI患者的预后生存情况比低GRI患者差,通过大量数据得到GRI 值,不仅可以对不同的患者脑胶质瘤分子进行划分,而且提高了脑胶质瘤分子划分的精准度,利用GRI对患者进行划分,方便辅助医生对患者进行不同类型的划分,利用不同的治疗方式对患者进行科学的治疗,提高患者的治疗康复率,解决了传统脑胶质瘤分子分型精准度低的问题。
步骤一中数据来源从癌症基因组图谱(TCGA)和胶质瘤基因组图谱(CGGA)数据库获取,TCGA-GBM和TCGA-LGG对应的体细胞突变数据、拷贝数变异数据和甲基化450K数据亦从TCGA数据库中获取,通过步骤一中数据来源从癌症基因组图谱(TCGA)和胶质瘤基因组图谱(CGGA)数据库获取,且TCGA-GBM和TCGA-LGG对应的体细胞突变数据、拷贝数变异数据和甲基化450K数据亦从TCGA数据库中获取,提供研究数据的来源,避免数据造假,提高研究成果的可靠性。
步骤二中“突变特征”收集的数量为30种,且将30种“突变特征”绘制成表格进行对比,通过步骤二中“突变特征”收集的数量为30种,且将30种“突变特征”绘制成表格进行对比,提高数据分析的精准度,利用多组数据进行分析,避免研究出现偏差,造成个例的出现,提高科研的成果的精准度。
临床特征包括胶质瘤级别分类(胶质母细胞瘤GBM/低级别胶质瘤LGG)、年龄(<60岁/≥60岁)、性别(男/女)、IDH状态(突变型/野生型)、1p/19q(共缺失/无共缺失)、7+/10-(共发生/无共发生)和MGMT启动子甲基化(甲基化/无甲基化)在四种亚型中分布不同,从C1至C4,老年患者和高级别胶质瘤(GBM)患者的百分比呈下降趋势,4个集群的性别分布无显著差异,C4的IDH突变、 1p/19q共缺失和MGMT启动子甲基化百分比最高,通过使用pRRophetic包,预测4个集群对吉西他滨和硼替佐米的整体敏感性,吉西他滨或硼替佐米与标准化疗药物替莫唑胺联合应用可使胶质瘤患者生存获益,本研究中通过半数抑制浓度(IC50)定量药物敏感性,IC50越低,敏感性越高,结果发现,C1亚型对硼替佐米更敏感, C3亚型对吉西他滨更敏感,方便不同类型的患者利用不同类型的治疗方式进行治疗,提高患者的康复率。
步骤四中随机抽取一组数据,且将Rembrandt队列(n=475)作为测试集进行验证,通过Rembrandt队列(n=475)作为测试集进行验证,提高科研的严谨性,避免以点概面的显现出现,验证科研成果的精准度。
步骤四中利用计算机将数据输入,生成GRI初始模型,在利用计算机技术得到GRI的计算公式,通过利用计算机技术方便简化科研流程,同时提高数据分析的精准度,有利于快速的得到GRI的公式。
步骤四⑥中的GPV(A|B)即基因对的赋值,且这44个A|B基因对即Lasso回归得到的44个关键基因对,通过公式中的变量进行解释,方便其他非科研人员对数据的理解。
步骤四⑦中利用GRI预测1年、3年、5年、7年和9年生存状态的AUC分别为0.921、0.958、0.941、0.925和0.908,并与数据库中后期患者的健康程度进行对比,验证GRI预测的精准度,通过 GRI预测患者之后1年、3年、5年、7年和9年生存状态,并与数据库中后期患者的健康程度进行对比,验证GRI预测的精准度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (8)
1.一种新的脑胶质瘤分子分型方法,其特征在于:包括如下步骤:
步骤一:收集数据
从数据库中获取基因表达谱和临床信息数据,五个胶质瘤队列纳入本研究:TCGA-GBMLGG队列(n=892),三个CGGA队列(mRNA-array(n=301),mRNAseq_325(n=325)和mRNAseq_693(n=693))和Rembrandt队列(n=475),从公开数据库收集了四个独立的免疫治疗队列,包括:①Roh队列:抗CTLA-4、抗PD-1治疗队列;②GSE100797:过继性T细胞治疗队列;③GSE78220:抗PD-1治疗队列;④GSE35640:抗MAGE-A3治疗队列,根据recistv1.1标准,完全缓解(CR)或部分缓解(PR)患者被视为免疫治疗有反应者,疾病稳定(SD)或疾病进展(PD)患者被视为免疫治疗无反应者,不可评估(NE)患者则被剔除;
步骤二:突变特征谱
突变特征库(第二版)聚焦于碱基置换突变,突变点的碱基置换包含六种类型:C>A,C>G,C>T,T>A,T>C和T>G,突变点两侧(5'和3'端)各可搭配四种碱基(A、T、C、G),最终可产生96种可能的突变类型(6种突变位点的碱基替换类型×4种,5'碱基×4种,3'碱基),在体细胞中,各种机制引起DNA损伤,进而发生体细胞突变,使得细胞基因组不断变化,各种类型的突变不断积累,最终,在96种突变类型上具有不同的积累,形成一个个独特的突变积累组合,检测到的每种组合即为一种“突变特征”;
步骤三:亚型识别
(一)、数据获取:从COSMIC网站获取获取每种突变特征的特征数据信息,从TCGA-LGG和TCGA-GBM获得的体细胞突变数据在去除沉默突变后用于构建每个个体的突变特征谱,参考基因组为h38
(二)、R包:DeconstructSigs和NMFpackage
(三)、方法
①移除突变数据中的沉默突变
②利用计算机技术将移除沉默突变的突变数据转化为突变环境矩阵
③使用DeconstructSigs包,分析每个样本中30个signature的组成比例,参考的signature是COSMIC,cutoff值设置为0.06,标准化方式使用“exome2genome”,最终我们得到了一个矩阵(行为30个signature,列为每个样本,cell的值为signature在每个样本的比例,所有signature加起来刚好为1)
④使用NMF包进行提取和聚类分析,设置潜在的ranks=2:5,运算执行次数设置为50,method设置为‘lee’,最终通过从cophenetic系数和轮廓系数决定最佳rank=4,如图1,即根据TCGA-GBMLGG队列中每个患者的突变特征谱,将胶质瘤分为四种分子亚型最优
⑤非负矩阵分解的一个特性是倾向于产生观察数据的稀疏表示,导致双聚类的自然应用,通过少量特征表征样本组,在NMF模型中,根据对每个样本贡献最大的基础组分(即在系数矩阵的每列中具有最大系数的基础组分)对样本进行分组,然后,通过根据基础矩阵计算的基础特异性评分选择的一组特征对每组样本进行表征,上述过程由NMF包实现,根据所有患者的突变特征谱,构建NMF模型,并通过extractFeatures函数(方法设置为“max”)对最基本的特定特征进行提取,最终,患者分为4个基础组,并提取出11种可表征每组样本的关键突变特征(mutational signature 1,3,5,8,12,13,15,16,21,26和30),结果如图2所示,每种亚型都有特异的突变特征变量,而后,根据提取出的这11种最基础的突变特征,进行NMF聚类分析,将TCGA-GBMLGG队列的所有患者分为四种亚型,命名为C1,C2,C3和C4,如图3所示;
步骤四:胶质瘤风险指数(glioma risk index,GRI)的构建
①数据分析,TCGA-GBMLGG胶质瘤队列作为训练集进行建模;三个CGGA队列(mRNA-array(n=301),mRNAseq_325(n=325)和mRNAseq_693(n=693))
②筛选4种亚型之间的共同差异表达基因(differentially expressed genes,DEGs):分别将每一种亚型组与其他三个亚型组配对比较,使用edgeR软件包进行基因表达差异分析,标准为校正p值<0.05和|log2 FC|>1,结果:鉴定出四组DEGs后取交集,共识别出708个DEGs
③对708个DEGs做单因素cox回归分析,|1-HR|>0.5和P-adjust<0.05的基因作为预后相关基因纳入下一步分析,(HR:危险比;P-adjust:校正P值),结果:一共提取到226个基因纳入下一步分析
④将这226个基因两两组合,形成基因对(gene pair),每对基因包含两个基因,A和B,表示为A|B,在一个样本中,若基因A的表达值高于基因B,那么该A|B基因对的值标记为1,反之为0,这样的赋值设计的优势在于,只需要关注两个基因mRNA表达之间的数学关系,完全忽略了不同平台之间的批次效应,不需要定义截断值(cut-off值),增加了临床适用性,在TCGA队列中,通过上述赋值方法对每个样本中的所有基因对进行赋值,并剔除在80%以上样本中评分为全为0或全为1的基因对,最终得到一个由样本和基因对构成的二进制0/1矩阵,用于下一步骤的分析
⑤根据上述0/1矩阵,对其中包含的基因对进行Lasso回归,以降维并建模,最优模型由惩罚系数λ决定,当惩罚系数lambda=0.07094148时,模型最优,最优模型包含了由36个基因组成的44个基因对基于这44个基因对
⑥GRI计算公式设计如下:
GRI=∑βi×GPV(i)
其中i为Lasso回归得到的关键基因对,GPV是i的赋值(0/1),β是i对应的Lasso回归系数,最终,GRI计算公式为:GRI=0.022×GPV(AGXT|BPIFB4)+0.002×GPV(AGXT|STMND1)+0.040×GPV(C5orf46|CSAG3)+0.031×GPV(CD70|FMO1)+0.070×GPV(DCSTAMP|FMO1)+-0.087×GPV(EDARADD|MAGED4)+0.051×GPV(EMP3|SOCS2)+0.234×GPV(EN1|FAT2)+0.076×GPV(EN1|PXDNL)+0.016×GPV(EN1|TDO2)+-0.020×GPV(ESR2|MAGED4)+0.138×GPV(FAM92B|FCAMR)+-0.285×GPV(FAT2|ITGBL1)+-0.160×GPV(FAT2|TMEM71)+-0.244×GPV(FAT2|WISP1)+-0.058×GPV(FMO1|HIST1H2BH)+-0.021×GPV(FMO1|HOXD11)+0.401×GPV(GPR1|KLRC1)+0.156×GPV(HCRT|PRSS48)+0.115×GPV(HCRT|SLC6A18)+0.055×GPV(HIST1H2AJ|SLC6A18)+0.019×GPV(HIST1H3C|RIPPLY3)+0.161×GPV(HIST1H3F|USP29)+0.270×GPV(HIST1H3G|PRSS48)+0.030×GPV(HIST1H3G|SLC6A18)+0.040×GPV(HIST1H3G|SLCO1B1)+0.098×GPV(HIST1H4B|SLCO1B1)+0.038×GPV(HIST1H4D|SLC6A18)+0.260×GPV(HIST1H4D|SPRR2A)+0.177×GPV(HOXA6|SLC6A18)+0.022×GPV(HOXA6|SPRR2A)+0.026×GPV(HOXD11|POTEF)+0.130×GPV(HOXD11|PRSS48)+0.038×GPV(HOXD11|TCF23)+0.007×GPV(HOXD11|UCN2)+0.207×GPV(IGFBP2|SLC29A1)+0.005×GPV(IL36B|SLCO1B1)+0.057×GPV(MAGED4|MOCOS)+-0.041×GPV(METTL1|PLA2G5)+0.093×GPV(NPIPA7|SLC6A18)+0.243×GPV(PAEP|SLCO1B1)+0.115×GPV(PLEKHN1|TNFSF11)+0.016×GPV(POTEI|POTEJ)+0.004×GPV(RBP1|SOCS2)
⑦用survminer包确定GRI最佳截断点0.8321341,根据此截断值,可将患者分为高、低GRI两组,Kaplan-Meier生存分析表明高GRI患者的预后生存情况比低GRI患者差。
2.根据权利要求1所述的一种新的脑胶质瘤分子分型方法,其特征在于:所述步骤一中数据来源从癌症基因组图谱(TCGA)和胶质瘤基因组图谱(CGGA)数据库获取,所述TCGA-GBM和TCGA-LGG对应的体细胞突变数据、拷贝数变异数据和甲基化450K数据亦从TCGA数据库中获取。
3.根据权利要求1所述的一种新的脑胶质瘤分子分型方法,其特征在于:所述步骤二中“突变特征”收集的数量为30种,且将30种“突变特征”绘制成表格进行对比。
4.根据权利要求1所述的一种新的脑胶质瘤分子分型方法,其特征在于:所述临床特征包括胶质瘤级别分类(胶质母细胞瘤GBM/低级别胶质瘤LGG)、年龄(<60岁/≥60岁)、性别(男/女)、IDH状态(突变型/野生型)、1p/19q(共缺失/无共缺失)、7+/10-(共发生/无共发生)和MGMT启动子甲基化(甲基化/无甲基化)在四种亚型中分布不同,从C1至C4,老年患者和高级别胶质瘤(GBM)患者的百分比呈下降趋势,4个集群的性别分布无显著差异,C4的IDH突变、1p/19q共缺失和MGMT启动子甲基化百分比最高。
5.根据权利要求1所述的一种新的脑胶质瘤分子分型方法,其特征在于:所述步骤四中随机抽取一组数据,且将Rembrandt队列(n=475)作为测试集进行验证。
6.根据权利要求1所述的一种新的脑胶质瘤分子分型方法,其特征在于:所述步骤四中利用计算机将数据输入,生成GRI初始模型,在利用计算机技术得到GRI的计算公式。
7.根据权利要求1所述的一种新的脑胶质瘤分子分型方法,其特征在于:所述步骤四⑥中的GPV(A|B)即基因对的赋值,且这44个A|B基因对即Lasso回归得到的44个关键基因对。
8.根据权利要求1所述的一种新的脑胶质瘤分子分型方法,其特征在于:所述步骤四⑦中利用GRI预测1年、3年、5年、7年和9年生存状态的AUC分别为0.921、0.958、0.941、0.925和0.908,并与数据库中后期患者的健康程度进行对比,验证GRI预测的精准度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110231797.6A CN112735537A (zh) | 2021-03-02 | 2021-03-02 | 一种新的脑胶质瘤分子分型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110231797.6A CN112735537A (zh) | 2021-03-02 | 2021-03-02 | 一种新的脑胶质瘤分子分型方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112735537A true CN112735537A (zh) | 2021-04-30 |
Family
ID=75595686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110231797.6A Pending CN112735537A (zh) | 2021-03-02 | 2021-03-02 | 一种新的脑胶质瘤分子分型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735537A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112391464A (zh) * | 2019-08-13 | 2021-02-23 | 复旦大学附属华山医院 | 用于检测脑胶质瘤基因突变的试剂盒及制备方法 |
CN113284610A (zh) * | 2021-05-12 | 2021-08-20 | 哈尔滨医科大学 | 一种检测晚期胃癌的组合生物标志物方法 |
CN113308545A (zh) * | 2021-06-11 | 2021-08-27 | 南京医科大学 | 一种基于dna甲基化的浸润性神经胶质瘤的分类装置 |
CN114023442A (zh) * | 2021-11-12 | 2022-02-08 | 上海市第一人民医院 | 基于多组学数据骨肉瘤分子分型的生信分析方法及模型 |
CN117373534A (zh) * | 2023-10-17 | 2024-01-09 | 中山大学孙逸仙纪念医院 | 一种三阴型乳腺癌预后风险评估系统 |
-
2021
- 2021-03-02 CN CN202110231797.6A patent/CN112735537A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112391464A (zh) * | 2019-08-13 | 2021-02-23 | 复旦大学附属华山医院 | 用于检测脑胶质瘤基因突变的试剂盒及制备方法 |
CN113284610A (zh) * | 2021-05-12 | 2021-08-20 | 哈尔滨医科大学 | 一种检测晚期胃癌的组合生物标志物方法 |
CN113308545A (zh) * | 2021-06-11 | 2021-08-27 | 南京医科大学 | 一种基于dna甲基化的浸润性神经胶质瘤的分类装置 |
CN114023442A (zh) * | 2021-11-12 | 2022-02-08 | 上海市第一人民医院 | 基于多组学数据骨肉瘤分子分型的生信分析方法及模型 |
CN114023442B (zh) * | 2021-11-12 | 2023-07-14 | 上海市第一人民医院 | 基于多组学数据骨肉瘤分子分型的生信分析方法及模型 |
CN117373534A (zh) * | 2023-10-17 | 2024-01-09 | 中山大学孙逸仙纪念医院 | 一种三阴型乳腺癌预后风险评估系统 |
CN117373534B (zh) * | 2023-10-17 | 2024-04-30 | 中山大学孙逸仙纪念医院 | 一种三阴型乳腺癌预后风险评估系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735537A (zh) | 一种新的脑胶质瘤分子分型方法 | |
Chen et al. | The use of classification trees for bioinformatics | |
CN105653846A (zh) | 基于集成的相似性度量和双向随机游走的药物重定位方法 | |
US20140067813A1 (en) | Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism | |
Zhao et al. | Correction for population stratification in random forest analysis | |
Wagner | GO-PCA: an unsupervised method to explore gene expression data using prior knowledge | |
CN115631789B (zh) | 一种基于泛基因组的群体联合变异检测方法 | |
CN112927757A (zh) | 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法 | |
Marko et al. | Why is there a lack of consensus on molecular subgroups of glioblastoma? Understanding the nature of biological and statistical variability in glioblastoma expression data | |
CN109988708A (zh) | 一种用于对患有结肠直肠癌的患者进行分型的系统 | |
Dalvie et al. | From genetics to systems biology of stress-related mental disorders | |
CN104978474A (zh) | 一种基于分子网络的药效评价方法及系统 | |
Ying et al. | Diagnostic potential of a gradient boosting-based model for detecting pediatric sepsis | |
CN111223525A (zh) | 一种肿瘤外显子测序数据分析方法 | |
Wang et al. | Crosstalk analysis of dysregulated pathways in preeclampsia | |
US8140456B2 (en) | Method and system of extracting factors using generalized Fisher ratios | |
Yousef et al. | GediNET-discover disease-disease gene associations utilizing knowledge-based machine learning | |
Xiao et al. | Transcriptional profiles reveal histologic origin and prognosis across 33 The Cancer Genome Atlas tumor types | |
Hu | Mining patterns in disease classification forests | |
Lauria | Rank‐Based miRNA Signatures for Early Cancer Detection | |
CN115410645B (zh) | 一种识别中成药治疗新冠肺炎作用靶点的方法 | |
Esim et al. | Determination of malignant melanoma by analysis of variation values | |
CN116129990B (zh) | 基于促肌样周细胞标志物的肿瘤免疫治疗预测方法及系统 | |
de Sousa et al. | RNA sequencing data of different grade astrocytoma cell lines | |
Cunha et al. | Predicting survival in metastatic non‐small cell lung cancer patients with poor ECOG‐PS: A single‐arm prospective study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |