CN114203259A - 一种多组学数据整合分析方法和在线交互式综合分析平台 - Google Patents
一种多组学数据整合分析方法和在线交互式综合分析平台 Download PDFInfo
- Publication number
- CN114203259A CN114203259A CN202111549150.4A CN202111549150A CN114203259A CN 114203259 A CN114203259 A CN 114203259A CN 202111549150 A CN202111549150 A CN 202111549150A CN 114203259 A CN114203259 A CN 114203259A
- Authority
- CN
- China
- Prior art keywords
- data
- analysis
- cancer
- gene
- methylation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 410
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 84
- 239000000126 substance Substances 0.000 title claims abstract description 47
- 230000010354 integration Effects 0.000 title claims abstract description 13
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 656
- 201000011510 cancer Diseases 0.000 claims abstract description 575
- 230000011987 methylation Effects 0.000 claims abstract description 212
- 238000007069 methylation reaction Methods 0.000 claims abstract description 212
- 230000004083 survival effect Effects 0.000 claims abstract description 99
- 230000001575 pathological effect Effects 0.000 claims abstract description 75
- 238000010219 correlation analysis Methods 0.000 claims abstract description 67
- 230000006870 function Effects 0.000 claims abstract description 36
- 238000013507 mapping Methods 0.000 claims abstract description 36
- 238000007405 data analysis Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 108090000623 proteins and genes Proteins 0.000 claims description 605
- 230000035772 mutation Effects 0.000 claims description 96
- 230000014509 gene expression Effects 0.000 claims description 89
- 102000004169 proteins and genes Human genes 0.000 claims description 75
- 238000010586 diagram Methods 0.000 claims description 73
- 238000000034 method Methods 0.000 claims description 73
- 230000008569 process Effects 0.000 claims description 44
- 238000012163 sequencing technique Methods 0.000 claims description 42
- 239000011159 matrix material Substances 0.000 claims description 27
- 210000000349 chromosome Anatomy 0.000 claims description 25
- 238000012800 visualization Methods 0.000 claims description 22
- 238000012351 Integrated analysis Methods 0.000 claims description 11
- 238000003559 RNA-seq method Methods 0.000 claims description 8
- 238000013144 data compression Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012098 association analyses Methods 0.000 claims description 5
- 238000004393 prognosis Methods 0.000 claims description 4
- 238000012179 MicroRNA sequencing Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 abstract description 143
- 102000040650 (ribonucleotides)n+m Human genes 0.000 abstract description 12
- 238000010195 expression analysis Methods 0.000 abstract description 11
- 230000000007 visual effect Effects 0.000 abstract description 5
- 108010026552 Proteome Proteins 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000010224 classification analysis Methods 0.000 abstract 1
- 210000001519 tissue Anatomy 0.000 description 73
- 239000000523 sample Substances 0.000 description 61
- 230000000875 corresponding effect Effects 0.000 description 35
- 238000012164 methylation sequencing Methods 0.000 description 22
- 238000012360 testing method Methods 0.000 description 16
- 108091027963 non-coding RNA Proteins 0.000 description 13
- 102000042567 non-coding RNA Human genes 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 108700009124 Transcription Initiation Site Proteins 0.000 description 11
- 108091070501 miRNA Proteins 0.000 description 9
- 238000000585 Mann–Whitney U test Methods 0.000 description 8
- 230000007170 pathology Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 7
- 108020004999 messenger RNA Proteins 0.000 description 7
- 238000011144 upstream manufacturing Methods 0.000 description 7
- 238000001353 Chip-sequencing Methods 0.000 description 6
- 239000002679 microRNA Substances 0.000 description 6
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 241000127642 Timia Species 0.000 description 5
- 125000003275 alpha amino acid group Chemical group 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 201000009030 Carcinoma Diseases 0.000 description 4
- 238000010220 Pearson correlation analysis Methods 0.000 description 4
- 238000001793 Wilcoxon signed-rank test Methods 0.000 description 4
- 150000001413 amino acids Chemical class 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 239000002773 nucleotide Substances 0.000 description 4
- 125000003729 nucleotide group Chemical group 0.000 description 4
- 101150109335 CABLES1 gene Proteins 0.000 description 3
- 102100024119 CDK5 and ABL1 enzyme substrate 1 Human genes 0.000 description 3
- 101000910461 Homo sapiens CDK5 and ABL1 enzyme substrate 1 Proteins 0.000 description 3
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 3
- 102000040945 Transcription factor Human genes 0.000 description 3
- 108091023040 Transcription factor Proteins 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000011475 lollipops Nutrition 0.000 description 3
- 230000036438 mutation frequency Effects 0.000 description 3
- 206010069754 Acquired gene mutation Diseases 0.000 description 2
- 108020005544 Antisense RNA Proteins 0.000 description 2
- 108091032955 Bacterial small RNA Proteins 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003184 complementary RNA Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012775 microarray technology Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009456 molecular mechanism Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 108020004418 ribosomal RNA Proteins 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 230000037439 somatic mutation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 108020005345 3' Untranslated Regions Proteins 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 1
- 108700019961 Neoplasm Genes Proteins 0.000 description 1
- 102000048850 Neoplasm Genes Human genes 0.000 description 1
- 108010089610 Nuclear Proteins Proteins 0.000 description 1
- 102000007999 Nuclear Proteins Human genes 0.000 description 1
- 108091008109 Pseudogenes Proteins 0.000 description 1
- 102000039471 Small Nuclear RNA Human genes 0.000 description 1
- 238000012167 Small RNA sequencing Methods 0.000 description 1
- 108091023045 Untranslated Region Proteins 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 238000007417 hierarchical cluster analysis Methods 0.000 description 1
- 230000006607 hypermethylation Effects 0.000 description 1
- 238000012482 interaction analysis Methods 0.000 description 1
- 230000009878 intermolecular interaction Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012950 reanalysis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000037432 silent mutation Effects 0.000 description 1
- 108091029842 small nuclear ribonucleic acid Proteins 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种多组学数据整合分析方法和在线交互式综合分析平台,该分析方法过程如下:首先对癌症基因组图谱、国际癌症基因组联盟两大平台的临床数据与多组学数据进行批量下载;其次对两大平台的临床数据与多组学数据进行提取预处理整合;最后对这两大平台的临床数据与多组学数据进行泛癌分析、差异表达分析、生存分析、临床病理参数分析和多组学数据间的相关性分析和可视化作图。本分析方法在进行根据RNA的分类分析时分析十几种RNA中可能的相互作用,以及RNA与蛋白组、拷贝数、甲基化之间的相关性,涉及的多组学数据类型更丰富,涵盖癌症基因组图谱平台和国际癌症基因组联盟平台的数据分析,具有更丰富的相关性分析功能。
Description
技术领域
本发明涉及生物科学研究和大数据挖掘技术领域,属于生物学和大数据挖掘统计分析和计算机网络服务相结合的领域,具体涉及一种多组学数据整合分析方法和在线交互式综合分析平台。
背景技术
当前,国际财团提供的大量癌症病人样本的测序和产生的海量多组学数据为生物医学数据挖掘和癌症研究创造了前所未有的机会,这将大大助力我们对肿瘤发生的分子机制的理解和研究。其中,国际癌症基因组联盟(ICGC)和癌症基因组图谱(TCGA)是两个最著名的癌症数据库,癌症基因组图谱由美国国家癌症研究所建立,每个项目都包含高质量的转录组测序,微小RNA(微小RNA)测序数据,拷贝数变异,反相蛋白微阵列技术(RPPA)芯片,甲基化芯片数据和单核苷酸变异数据等多组学数据和详细的临床数据。国际癌症基因组联盟从世界各地收录癌症测序数据,癌症类型和区域比癌症基因组图谱多;国际癌症基因组联盟的许多项目主要基于临床数据和突变数据;另外国际癌症基因组联盟的一些癌症项目下也有大量的多组学数据。
这些高质量数据的探索和再分析往往需要在数据处理中进行密集的编程,这给实验和临床研究人员研究这些数据造成了巨大的障碍;癌症基因组图谱和国际癌症基因组联盟社区致力于促进对大量数据的访问,并开发了几个广泛使用的门户网站;基因组数据共享(GDC)数据门户、国际癌症基因组联盟数据门户是浏览、查询和下载数据的主要存储库;cBio癌症基因组学门户(cBioPortal)为许多研究提供了先进的以基因为中心的查询和可视化功能;UCSC Xena为单个基因的集成研究提供了多个数据集的交互式样本级可视化;癌症体细胞突变目录(COSMIC)提供了最全面的癌症体细胞突变列表;基因表达谱交互分析(GEPIA)提供交互式和可定制的功能,包括差异表达分析、患者生存分析、癌症基因组图谱和基因型组织表达(GTEX)RNAseq数据的相似基因检测和降维分析。
尽管现有的一些网络服务器具有很高的价值和广泛的应用,但是这些web服务也存在一些缺点和不如意的地方。很多网络服务都是主要对癌症基因组图谱的RNAseq转录组数据进行简单的差异分析,生存分析和可视化作图,或者对突变数据进行分析,在一个web服务中能分析的组学种类较少,同时对国际癌症基因组联盟数据的分析功能也比较欠缺。
因此需要提供一种同时对RNA数据(例如同时对信使RNA、微小RNA、长链非编码RNA、以及众多类型的非编码RNA),和蛋白质组、甲基化组学、突变、拷贝数这些癌症基因组图谱、国际癌症基因组联盟中涉及的所有组学数据进行全面的分析,与临床的各种病理参数进行关联起来,对所有的临床病理参数进行分组分析,和对信使RNA、微小RNA、长链非编码RNA等十余种RNA间的相关性分析和RNA与蛋白表达,拷贝数变异,甲基化水平和突变数据间的相关性分析从多种分子维度上探索分子间潜在的相互作用和调控信息,这些对于研究癌症发生发展背后的分子机制是十分关键的。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种多组学数据整合分析方法和在线交互式综合分析平台,该在线交互式综合分析平台简称TIMIA;
本发明的目的可以通过采取如下技术方案达到:
一种多组学数据整合分析方法,所述分析方法包括以下步骤:
S1、数据下载:从癌症基因组图谱数据库、国际癌症基因组联盟数据库中获取癌症患者的肿瘤组织与正常组织的转录组RNAseq测序数据、微小RNA测序数据、拷贝数变异数据、甲基化数据,RPPA蛋白芯片数据、突变数据以及临床病理信息;
S2、数据的提取和预处理:对癌症基因组图谱数据库和国际癌症基因组联盟数据库下载的文件进行解压,对多组学数据的大文件按照基因所在的23个染色体分割成23个文件;从癌症基因组图谱数据库中下载的XML网页格式的临床文件中提取出有效的临床信息,对癌症基因组图谱数据库中每个癌肿的所有样本的数据进行合并,将癌症基因组图谱中合并后的数据矩阵的文件编号名转换成样本编号名;把国际癌症基因组联盟数据库中下载的每个癌症不同类型的临床信息文件合并到一个文件中,去掉国际癌症基因组联盟数据库下载的多组学数据文件的冗余信息,从国际癌症基因组联盟数据库下载的多组学数据中提取出样本编号,基因编号,基因特征值这几列数据,把国际基因组联盟下载的多组学数据转换行为基因编号,列为样本编号,数据为基因定量值的数据矩阵格式;把癌症基因组图谱数据库和国际癌症基因组联盟数据库中的基因编号都转换成正式的基因名称;对甲基化数据的甲基化位点进行注释;
S3、临床数据与多组学数据的交互式整合分析:将RNAseq数据、蛋白表达数据、拷贝数数据、甲基化数据、突变数据与临床的生存预后信息和各种临床病理参数进行关联,对单个基因在所有癌肿中的泛癌多组学分析,以及在癌症基因组图谱、国际癌症基因组联盟癌肿中单个癌肿里的不同组学水平的生存分析,基因不同临床病理分组的差异分析;对不同的RNA类型间的相关性分析,以及RNA水平与蛋白水平、拷贝数水平、甲基化水平的相关性分析和可视化。
进一步地,所述步骤S1包括:
S1.1、下载国际癌症基因组联盟平台的临床数据和多组学数据,过程如下:
S1.1.1、从国际癌症基因组联盟网站中发现文件下载链接的排列组合规律;使用浏览器的网页检查从国际基因组联盟的网页动态响应的后台源码中找到国际基因组联盟网站隐藏的下载网址前缀,再加上癌肿项目的名称和癌肿目录下的文件名就能组合完整的文件下载链接;
S1.1.2、批量生成国际癌症基因组联盟网站数据文件的下载链接,并批量下载所有的文件;使用发现的国际基因组联盟网站隐藏的下载网址前缀,爬取国际基因组联盟的所有癌症名称名称,以及每个癌肿目录下的所有文件名称,组合成所有数据文件的下载链接,并对所有文件下载链接进行批量下载;
S1.2、下载癌症基因组图谱的临床数据和多组学数据,过程如下:
S1.2.1、获取癌症基因组图谱中的数据文件的下载名单信息;从癌症基因组图谱官网找到33种癌肿项目,分别将每个癌肿的所有样本的临床数据和多组学数据加载到购物车,从购物车中获取选中的下载名单信息;
S1.2.2、批量下载癌症基因组图谱平台的临床数据和多组学数据;在命令行下使用癌症基因组图谱平台官网提供的下载工具根据上一步得到的下载名单信息批量下载癌症基因组图谱平台的每个癌肿的所有样本的临床数据和多组学数据。
进一步地,所述步骤S2包括:
S2.1、对国际癌症基因组联盟下载的临床文件和组学文件进行整理解析和预处理,过程如下:
S2.1.1、解压所有的国际癌症基因组联盟平台下载到的数据压缩包;国际癌症基因组联盟平台下载的数据文件都是gz压缩包格式,在命令下对这些压缩文件进行批量解压;
S2.1.2、对国际癌症基因组联盟平台的临床文件进行整合;国际癌症基因组联盟平台的临床文件包括了多种类型格式的临床文件,将每个癌肿中所有包含了样本描述信息和临床信息的文件都整合到一个临床文件中,得到最丰富的临床信息资料;
S2.1.3、对国际癌症基因组联盟平台的多组学数据进行分割提取和转换;
S2.2、对癌症基因组图谱下载的临床文件和组学文件进行整理解析和预处理,过程如下:
S2.2.1、解压所有的癌症基因组图谱平台下载到的数据压缩包;癌症基因组图谱平台下载到的数据文件进行了gz格式的压缩,在命令行下对文件的压缩包进行批量解压;
S2.2.2、合并癌症基因组图谱的每个癌肿组学数据包含的所有样本文件;癌症基因组图谱平台的每个癌肿的每个样本都有一个单独的数据文件,将隶属于一个癌肿的所有样本的数据文件按照基因编号整合在一起,合并成一个数据矩阵;
S2.2.3、将多组学数据矩阵中的文件编号名转换为样本编号名;上一步整合得到的数据矩阵列名是每个样本的原始文件名,把这些文件名转换成常用的样本编号名作为多组学数据矩阵的列名;
S2.2.4、将多组学数据中的基因编号转换成正式的基因名称;癌症基因组图谱平台的多组学文件中的基因是以基因编号的形式表示,根据人类参考基因组注释信息中基因编号与基因名称间的对应关系,将基因编号转换成更容易辨别的正式的基因名称;
S2.2.5、对癌症基因组图谱的多组学数据中的甲基化位点进行注释;根据甲基化探针检测的甲基化位点在基因组中的位置和基因以及基因的转录起始位点在基因组中的位置,将甲基化位点注释成离在基因的转录起始位点上游或下游多少个碱基的位置信息;
S2.2.6、提取和整合癌症基因组图谱中的临床病理数据。
进一步地,所述步骤S2.1.3过程如下:
S2.1.3.1、提取国际癌症基因组联盟平台多组学文件数据的重要列;国际基因组联盟平台的数据文件包含了很多的冗余信息,只提取基因的编号,样本的编号和基因的特征值这几个重要列,便于后续分析和缩减文件的体积;
S2.1.3.2、将体积大的多组学文件按照染色体编号基因分割成23个小文件;国际癌症基因组联盟的转录组测序文件和甲基化数据文件的体积很大,根据基因分布在基因组的23个染色体上,将这些文件分割成23个小文件,每个文件代表一个染色体包含的基因的组学数据,方便文件的快速读取和处理;
S2.1.3.3、对多组学数据中的甲基化位点进行注释;根据甲基化探针检测的甲基化位点在基因组中的位置和基因以及基因的转录起始位点在基因组中的位置,将甲基化位点注释成离在基因的转录起始位点上游或下游多少个碱基的位置信息;
S2.1.3.4、将多组学数据转换成表达矩阵的表格格式;国际癌症基因组联盟的多组学数据文件不属于常用的行为基因,列为样本的矩阵格式,根据前面从国际基因组联盟平台的多组学文件中提取到的基因编号,样本编号和基因的特征值这3个重要列,将文件转换成行为基因名,列为样本编号的常用矩阵格式;
S2.1.3.5、将多组学数据中的基因编号转换成正式的基因名称;国际癌症基因组联盟的多组学文件中的很多基因用基因编号的形式表示,为了便于识别,根据人类参考基因组的注释文件中基因编号与基因名称的对应关系,将基因编号转换成正式的基因名称。
进一步地,所述步骤S3包括:
S3.1、将癌症基因组图谱平台和国际基因组联盟平台的多组学数据按照每个基因进行分割整合;把癌症基因组图谱数据库和国际癌症基因组联盟数据库中的多组学数据按照基因名分割成每个基因对应的单基因的多组学数据文件,把癌症基因组数据库和国际癌症基因组联盟数据库中相同基因名和相同数据类型的组学数据整合在一起;
S3.2、通过癌症基因组图谱和国际基因组联盟平台整合后的数据构建在线交互式综合分析平台,所述在线交互式综合分析平台包括以下六部分:主页版块、RNA数据分析版块、蛋白质数据分析版块、甲基化数据分析版块、拷贝数变异分析版块、突变分析版块,过程如下:
S3.2.1、构建交互式分析平台的主页版块;在主页版块下添加了介绍页面和帮助页面,用于向用户提供交互式分析分析平台的介绍信息和帮助信息;
S3.2.2、构建交互式分析平台的RNA数据交互式分析板块,通过R语言的shiny前端的界面中添加一个RNA数据交互式分析板块的菜单,RNA数据交互式分析板块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;RNA数据交互式分析版块的分析后台将RNA转录组测序数据中的所有RNA按照RNA类型分成了包括能编码蛋白的信使RNA,以及微小RNA,长链非编码RNA,转运RNA,转运RNA等十余种RNA,可以选择各种类型的RNA包含的基因进行多癌肿的泛癌分析,以及在单个癌肿中的差异表达分析,生存分析,临床病理分组的差异分析,不同类型的RNA间的相关性分析以及RNA与其它组学的相关性分析;
S3.2.3、构建交互式分析平台的蛋白质分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个蛋白分析模块的菜单,蛋白分析模块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;蛋白分析模块使用了反向蛋白微阵列技术检测的蛋白芯片数据,包含了几百种跟癌症有关的重要基因的蛋白的定量数据,这些数据主要来源于癌症基因组图谱平台,根据用户选择的包含蛋白数据的基因,以及感兴趣的蛋白分析功能,在后台自动读取该基因在该癌肿的蛋白芯片数据,并根据用户选择的分析功能,进行该基因在多癌肿中的泛癌分析,在单癌肿中的差异分析,不同临床病理分组的差异分析,以及蛋白数据与其它组学数据的相关性分析;
S3.2.4、构建甲基化分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个甲基化分析版块的菜单,甲基化分析版块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、单位点分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;甲基化分析版块包含了对来自癌症基因组图谱和国际癌症基因组联盟的甲基化芯片数据和全基因组甲基化测序数据的两种类型的甲基化数据,当选择了感兴趣的基因,以及感兴趣的甲基化类型,会对癌症基因组图谱和国际癌症基因组联盟包含该基因的所有癌症进行泛癌的平均甲基化水平分析,以及在单癌肿中绘制该基因所有甲基化位点的甲基化水平的聚类热图分析,以及在单癌肿中该基因的单个甲基化位点的差异分析,单甲基化位点的生存分析,不同临床病理分组的差异甲基化分析,以及基因中甲基化位点的甲基化水平与该基因的RNA表达水平的相关性分析;
S3.2.5、构建拷贝数变异分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个拷贝数变异分析模块的菜单,拷贝数变异分析模块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;分析用户感兴趣的基因在拷贝数变异数据中含有该基因的所有癌肿进行泛癌分析,在泛癌分析中绘制该基因在泛癌中的拷贝数扩增,缺失和正常拷贝数的频率占比的堆叠条形图,在单个癌肿中分析该基因的拷贝数扩增,正常二倍体拷贝和拷贝数缺失三种类型的频率占比;以及这三种拷贝数变异类型在单癌肿中的生存分析,该基因的拷贝数水平在不同临床病理参数分组中的差异分析,以及在大单癌肿中拷贝数变异与其它组学数据多基因间的相关性分析。
S3.2.6、构建突变分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个突变分析模块的菜单,突变分析模块的菜单栏下依次添加泛癌交互式分析面板、单癌肿分析面板、突变瀑布图可视化分析面板、生存分析面板、临床病理参数分析面板和关联分析面板。分析用户感兴趣的基因在癌症基因组图谱和国际癌症基因组联盟的突变数据含有该基因的所有癌肿进行突变数据的泛癌分析,绘制泛癌分析各突变类型在泛癌中的堆叠频率条形图,在单个癌肿中对该基因的突变位点进行统计分析,并绘制发生氨基酸位点突变的位点在该基因中的突变棒棒糖图,在单个癌肿中对一组基因的突变数据的突变类型和样本数据进行统计,并绘制突变瀑布图的可视化图形,在单个癌肿中一个基因的突变组和野生型组在临床病人中的生存预后分析,对一个基因的突变组与野生型组两类样本中其它组学数据进行差异分析。
进一步地,所述步骤S3.2.1、构建交互式分析平台的主页版块,包括:
S3.2.1.1、使用R语言的shiny包在前端界面中添加一个主页菜单,在主页菜单下使用面板函数添加介绍、帮助两个选项卡面板;
S3.2.1.2、构建主页菜单栏下的介绍选项卡,添加平台的介绍信息页面;编写一个静态网页作为平台的信息介绍页面,显示交互式分析平台的图标,技术架构,平台特点,分析结果图展示等内容。
S3.2.1.3、构建主页菜单栏下的帮助选项卡,生成平台的帮助信息页面。编写一个静态网页作为平台的帮助页面,显示RNA数据分析,蛋白数据分析,甲基化数据分析,拷贝数变异数据分析,突变数据分析中每一步的具体操作步骤的讲解和详细的帮助文档。
本发明相对于现有技术具有如下的优点及效果:
1、国际癌症基因组联盟平台的文件较多,文件体积很大,用户通过一个个点击下载的方式比较费时费力,难以将文件全部下载下来。现有的技术没有提供对国际癌症基因组联盟平台的文件的快速批量下载的方法。通过网页点击下载文件获取的下载链接是动态虚拟的下载链接,不能用该链接在命令行下直接下载文件。本发明从国际癌症基因组联盟平台的网站后台的交互式响应源码中找到了文件下载的真实链接的前缀,并发现了使用该下载链接的前缀,加上癌肿目录名称,同时再加上癌肿目录名称下的文件的名称,就可以得到完整真实的文件的下载链接,根据发现的国际癌症基因组联盟平台发现的真实的文件下载前缀以及使用使用该文件下载前缀加上癌肿的目录名称和癌肿目录下的文件的名称这种排列组合规律代表的文件的真实下载链接,本发明首次给出了国际癌症基因组联盟平台的文件下载链接的批量构造和批量下载方法,能对国际癌症基因组联盟平台的临床数据和多组学数据实现快速批量的数据下载。
2、本发明能对国际癌症基因组联盟平台的临床文件中的数据进行有效的提取和处理。现有的技术基本上都是针对癌症基因组图谱数据库的临床文件的处理,没有针对国际癌症基因组联盟数据库的临床文件的处理方法。国际癌症基因组联盟数据库中的临床文件种类较多,临床信息被分散在多种类型的数据文件中,本发明将国际癌症基因组联盟数据库中每个癌肿所有含有临床信息的文件中的临床信息全部提取出来并按照供体的编号合并在一起,得到一个带有最丰富信息的临床文件,便于后续对国际癌症基因组联盟的临床数据进行生存分析和各种临床病理参数分组的差异分析。
3、本发明开发了对国际癌症基因组联盟平台的大文件的分割提取处理方法,当前的技术工具主要是针对癌症基因组图谱的数据进行处理,没有针对国际癌症基因组联盟平台的数据进行详细处理分析的工具,癌症基因组图谱的文件体积较小,国际癌症基因组联盟平台的转录组和甲基化的数据文件体积较大,其中国际癌症基因组平台的甲基化文件的体积比癌症基因组图谱的甲基化文件的体积大一百多倍,这种文件难以读取到电脑的内存中进行分析,该发明会首先将这些大文件的重要列提取出来,去掉文件中的冗余信息,保留较少的列,大大缩减文件的体积,并会进一步判断文件的体积大小,对体积较大的文件可以按行分割成多个指定体积大小的小文件,或者对大文件按照基因所在的染色体编号进行分割,分成23个对应染色体的子文件,大大缩减单个文件的体积,能有效对大文件进行裁剪分割,偏于进行后续的读取和分析。
4、本发明能对国际癌症基因组联盟平台的多组学数据进行有效的数据和表达矩阵的提取以及基因名转换。现有的技术主要是针对癌症基因组图谱平台的多组学数据进行处理分析,很少涉及到对国际癌症基因组联盟平台的多组学数据进行处理。国际癌症基因组联盟平台的多组学数据的格式跟癌症基因组图谱平台的数据格式有很大的不同,处理方法也有很大的区别。本发明提供了对国际癌症基因组联盟平台的多组学数据的详细的预处理操作。能对国际癌症基因组联盟下载的多组学文件进行批量解压缩,从多组学数据的原始文件中提取出样本编号,基因编号,基因特征值重要的列,舍弃很多容易的列,缩减文件的体积,并将提取的重要列转换成行为基因,列为样本,值为基因的数值的数据矩阵的格式,并将国际癌症基因组联盟平台的多组学数据中各种类型的基因编号全部转换成正式容易识别的基因名称,从而能顺利对国际癌症基因组联盟的多组学数据进行各种分析操作。
5、本发明整合了癌症基因组图谱平台与国际癌症基因组联盟两个平台的临床数据和多组学数据。现有的技术主要是对癌症基因组图谱的33种癌肿的临床数据和多组学数据进行分析,国际癌症基因组联盟平台还有的癌肿和地区更为丰富,本发明将癌症基因组图谱的33种癌症和国际癌症基因组联盟平台的62种癌症整合在了一起,得到了95种癌肿和40547个组织的更丰富的癌肿临床基因组数据分析平台,能对更多癌肿的数据进行分析和处理,助力对更多地区和更多癌症的研究和数据挖掘。
6、本发明对甲基化位点提供了详细的注释功能。现有的技术主要是针对癌症基因组图谱的数据进行处理和分析,由于甲基化数据的文件体积较大,现有工具对甲基化数据的处理分析涉及较少,更缺乏对甲基化位点的注释功能,本发明对甲基化位点提供了完善详细的注释功能,能将癌症基因组图谱和国际基因组联盟中的甲基化位点注释到某个基因的转录起始位点上游或转录起始位点下游多少个碱基的位置,对甲基化位点在基因中的位置有更加清晰直观的认识,同时将甲基化位点的位置跟基因转录起始位点的位置联系在一起,更加利于分析甲基化数据对基因转录调控的影响。
7、本发明能对更多种类的RNA进行分析。现有的技术主要是分析转录组测序中的信使RNA的数据,本发明对癌症基因组图谱和国际癌症基因组联盟平台的转录组测序和小RNA测序数据进行了合并,并将RNA分成了信使RNA,微小RNA,长链非编码RNA,反义RNA,转运RNA,核糖体RNA等十余种RNA类型,用户对十余种RNA类型下的基因进行分析,同时还可以分析信使RNA-微小RNA,微小RNA-长链非编码RNA,长链非编码RNA-信使RNA等多种RNA间的基因的相关性分析。
8、提供了更加丰富的多组学数据的相关性分析功能。现有的技术和工具的相关性分析功能比较欠缺,很多仅仅提供了转录组测序数据的两个基因间的相关性分析,本发明在相关性分析功能上提供了转录组测序数据,拷贝数,甲基化,蛋白组每种组学数据中两个基因间的相关性的分析,同时也可以读取一组基因的名称,实现一个靶基因与关联的多个基因间的相关性分析,在转录组的相关性分析时,能分别选择靶基因与关联的基因的各自的RNA类型,能实现对包括信使RNA、微小RNA、长链非编码RNA等十余种不同的RNA间的相关性分析,在组学间的相关性分析时,也能选择靶基因与关联的基因的各自的组学类型,能实现RNA与蛋白表达、甲基化、拷贝数等多组学数据间的相关性分析,从多种分子水平的相关性分析中找到潜在的调控和相互作用关系。
附图说明
图1是本发明实施例中公开的一种基于癌症基因组图谱、国际癌症基因组联盟的多组学数据整合分析方法及TIMIA搭建的流程图;
图2是本发明实施例中公开的一种多组学数据整合分析方法所采用的技术框架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例公开了一种基于癌症基因组图谱、国际癌症基因组联盟的多组学数据整合分析方法,搭建了在线交互式综合分析平台,以下该平台简称TIMIA,该方法包括:从癌症基因组图谱、国际癌症基因组联盟两大癌症数据库中获取癌症患者的肿瘤组织与正常组织的转录组RNAseq测序数据、微小RNA测序数据、拷贝数变异数据、甲基化数据,RPPA蛋白芯片数据、突变数据以及临床病理信息;根据获取的多组学数据分析和可视化单个基因在癌症基因组图谱、国际癌症基因组联盟泛癌中的各种组学水平的变化情况,以及在单个癌肿中的肿瘤组织和正常组织中的信使RNA、微小RNA、长链非编码RNA等十余种不同类型的RNA类别的基因的差异表达以及蛋白水平的差异表达、甲基化水平的差异表达、拷贝数和单核苷酸突变在肿瘤组织中的变异信息;将RNAseq数据,蛋白表达数据,拷贝数数据、甲基化数据、突变数据与临床的生存预后信息和各种临床病理参数进行关联,对某个基因在癌症基因组图谱、国际癌症基因组联盟癌肿中的不同组学水平的生存分析,基因不同临床病理分组的差异分析;对不同的RNA类型(如信使RNA、微小RNA、长链非编码RNA等)间的相关性分析,以及RNA水平与蛋白水平、拷贝数水平,甲基化水平的相关性分析和可视化,能够帮助用户分析基因在多种癌肿中的不同组学水平的表达和改变情况,以及结合大量组学数据和相关性分析找到潜在的基因间的调控信息。该在线交互式综合分析平台可以被用户在线访问并进行交互式分析。该分析方法具体步骤如下:
第1步:数据下载
S1.1、下载国际癌症基因组联盟平台的临床数据和多组学数据;
S1.1.1、从国际癌症基因组联盟网站中发现文件下载链接的排列组合规律;
国际癌症基因组联盟网站是一个动态网站,并不会直接向用户给出给出网站储存的数据文件的真实下载链接,导致用户不能批量下载国际癌症基因组联盟的数据文件,首先需要从国际癌症基因组联盟的网页源代码中找到文件下载时候隐藏的真实下载链接,并根据这些下载链接与癌肿名称和数据类型相关的构造规则,批量生成跟每个癌肿里的每种数据类型文件有关的具体下载链接,从而批量迭代下载所有的国际癌症基因组联盟储存的临床数据文件和多组学数据文件。
在浏览器搜索国际癌症基因组联盟,进入最新的数据存储栏目页面,找到当前的数据版本,在浏览器中使用网页检查,在网页检查区域找到网络模块,在原网页中点击数据项目时,在网页检查区域找到相应的项目,查看网页的标头和预览,在标头下找到请求链接,即为网页隐藏的有效的下载链接。使用数据项目目录的链接,并用爬虫技术爬取该项目目录下的所有癌肿名称和每个癌肿目录下的数据文件名,然后用项目链接+癌肿名称+癌肿目录下的文件名称,即为每个文件的有效的下载连接。
S1.1.2、批量生成国际癌症基因组联盟网站数据文件的下载链接,并批量下载所有的文件;
根据上一步找到的国际癌症基因组联盟平台的数据文件的命名规律,使用爬虫技术查看该平台的数据存放目录下包含的所有癌肿项目的名称,并使用网站的链接前缀加上癌肿的项目名称生成每个癌肿的项目链接,利用该链接进入到该癌肿项目的目录中,并使用爬虫获取该癌肿项目下的所有文件的名称,然后根据国际癌症基因组联盟平台的数据项目的链接前缀+每个癌肿项目的名称+每个癌肿项目目录下的所有数据文件的名称,就批量生成了所有的数据文件的下载链接,采用迭代所有文件的链接的方法批量下载所有的数据文件。
S1.2、下载癌症基因组图谱的临床数据和多组学数据;
S1.2.1、获取癌症基因组图谱中的数据文件的下载名单信息;
从癌症基因组图谱数据库中下载临床数据和多组学数据,访问癌症基因组图谱的官方网站,通过选择癌症基因组图谱中的33种癌症下每个癌肿所有样本包含的各种数据文件,把33种癌肿的每个癌肿下的某种数据类型的所有开放允许下载的文件全部勾选,将这些勾选的文件添加到网站的购物车栏中。把勾选到购物车中的某个癌肿的该数据类型的所有数据文件的名单信息(manifest文件)下载到本地电脑中。
S1.2.2、批量下载癌症基因组图谱平台的临床数据和多组学数据;
从癌肿基因组图谱官网中下载官方提供的数据下载工具(gdc-client),根据上一步先下载到的一个癌肿的临床数据或多组学数据下的所有数据文件的文件名单,在命令行中使用官方的下载工具加上上一步得到的文件名单信息,就把癌肿包含的所有数据文件批量下载到本地的电脑中。
第2步:数据的提取和预处理
S2.1、对国际癌症基因组联盟下载的临床文件和组学文件进行整理解析和预处理,过程如下:
S2.1.1、解压所有的国际癌症基因组联盟平台下载到的数据压缩包;
从国际癌症基因组联盟平台的数据仓库中下载到的临床数据和多组学数据的数据文件都是gz压缩包格式的文件,在命令行下将所有压缩包格式的数据文件批量解压到当前的数据类型目录中。
S2.1.2、对国际癌症基因组联盟平台的临床文件进行整合;
国际癌症基因组联盟中的临床文件类型较多,同一个癌肿也含有多个临床临床文件,国际癌症基因组联盟中含有临床样本信息的文件类型包括:供体(donor)、供体陈列(donor_exposure)、供体家族(donor_family)、供体手术(donor_surgery)、供体治疗方法(donor_therapy)、样本(sample)、样品信息(specimen)这七种类型的数据文件,为了得到最详细的癌症病人的临床信息,将这七种临床数据文件按照国际癌症基因组联盟的供体编号合并成一个综合的临床信息文件,用于后续的生存分析和各种临床病理参数的分析。
S2.1.3、对国际癌症基因组联盟平台的多组学数据进行分割提取和转换,过程如下:
S2.1.3.1、提取国际癌症基因组联盟平台多组学文件数据的重要列;
对于组学数据,一个数据矩阵包含的主要信息包括样本的编号,基因的名称或编号,某个基因在某个样本中的定量信息或类别信息。国际癌症基因组联盟的数据文件中的数据不是按照行为基因名,列为样品名这样排列的数据矩阵形式的文件,包含了很多无用的注释信息,导致文件的体积庞大,也不利于后续的处理分析,对于组学数据文件,去除文件中除了国际癌症基因组联盟样本编号,基因编号和表达值以外的所有不重要的列,把数据信息转换成按照行为基因名、列为样本名的这种表达矩阵的形式。
在处理基因芯片,转录组测序数据,蛋白芯片数据,拷贝数变异数据的时候,数据文件中只保留国际癌症基因组联盟平台的样本编号,基因编号,表达值或拷贝数变异水平这三列,去除掉其它所有不必须的列。
在处理甲基化芯片的数据文件时,只保留国际癌症基因组联盟平台的样本编号,基因编号,甲基化探针编号,甲基化水平这四列数据,去除掉其它所有不必须的列。
在处理全基因组甲基化测序类型的数据文件时,只保留国际癌症基因组联盟平台的样本编号,基因编号,染色体编号,在染色体中的起始位置,甲基化水平这四列数据,去除掉其它所有不必须的列。
在处理突变类型的数据文件时,只保留国际癌症基因组联盟平台的样本编号,基因编号,核苷酸位点变异信息,氨基酸位点变异信息,突变分类信息这五列,去除掉其它所有不必须的列。
S2.1.3.2、将体积大的多组学文件按照染色体编号基因分割成23个小文件;
对于国际癌症基因组联盟中很多2G以上甚至是几十G上百G的单个大文件,在经过上一步提取重要列后的文件的体积依然是很大的,使用linux中的文件分割命令将这样的大文件按行分割成多个500M左右大小的多个小文件,再依次读取分割后的每个小文件,人类基因组上有23条染色体,根据每个基因编号所在染色体的位置的注释信息,将属于一个染色体上的所有基因的数据信息合并在一起,生成按照染色体进行分割的多组学数据的分割小文件。
S2.1.3.3、对多组学数据中的甲基化位点进行注释;
在经过上一步将多组学文件按照染色体编号进行分割成每个染色体对应的子文件后,对于甲基化芯片数据和全基因组甲基化测序,根据检测的甲基化位点在基因组的染色体上的起始位点和终止位点信息,并根据基因在基因组的染色体上的起始位点和终止位点,以及基因的转录起始位点在基因组的染色体上的位置,将每个检测到的甲基化位点的位置匹配到某个基因上,并根据该基因的转录起始位点所在的位置与该甲基化位点的距离,将该甲基化位点注释成该基因上离转录起始因子上游多少距离或离转录起始因子下游多少距离。例如-30_CABLES1这个甲基化位点的注释信息表示的甲基化位点是CABLES1基因的转录因子上游第30位碱基上发生的甲基化,1924_CABLES1这个甲基化位点编号表示的甲基化位点是CABLES1基因的转录因子下游第1924位碱基上发生的甲基化。
S2.1.3.4、将多组学数据转换成表达矩阵的表格格式;
对于前面提取了重要列,并按照染色体分割后的多组学数据文件,将这些数据文件中的样本编号作为列名,基因编号作为行名,每个样本的某个基因的定量信息作为每个矩阵点的值,将文件转换成行为基因名、列为样本名的这种表达矩阵的形式。
S2.1.3.5、将多组学数据中的基因编号转换成正式的基因名称;
国际基因组联盟中的多组学数据的原始文件中,基因通常是以基因编号的表示形式,生物科研人员只认识基因的正式名称,利用人类基因组的注释文件中基因编号与基因名间的对应关系,将国际癌症基因组联盟中转换后的每种组学文件中的基因编号转换成正式容易辨别的正式的基因名称。
S2.2、对癌症基因组图谱下载的临床文件和组学文件进行整理解析和预处理;
S2.2.1、解压所有的癌症基因组图谱平台下载到的数据压缩包;
从癌症基因组图谱平台的数据仓库中下载到的临床数据和多组学数据的数据文件都是gz压缩包格式的文件,在命令行下将所有压缩包格式的数据文件批量解压到当前的数据类型目录中。
S2.2.2、合并癌症基因组图谱的每个癌肿组学数据包含的所有样本文件;
从癌症基因组图谱官网下载的数据每个癌肿的样本文件没有整合在一起,经过上一步解压后的组学数据的目录中会包括很多样本的子目录,每个样本都有一个单独的表达数据文件,每个癌肿的组学数据的所有样本文件都有共同的基因编号,进入到每个样本的子目录中,读取每个样本的表达数据文件,将一个癌肿中每个样本的数据按照文件中共有的基因编号合并成一个含有所有样本的表达矩阵文件。
由于癌症基因组图谱的多组学数据类型中,除了甲基化以外的组学类型都按照上述方法进行样本整合,但是450k探针的甲基化芯片数据整合后的甲基化矩阵文件体积较大,直接将整个文件读取到内存中,会占用较大的内存空间,在整合所有样本的甲基化数据时,根据每个基因编号所在染色体的位置的注释信息,将属于一个染色体上的所有基因的数据信息合并在一起,生成按照每个染色体进行分割的甲基化数据矩阵文件。
S2.2.3、将多组学数据矩阵中的文件编号名转换为样本编号名;
经过上一步合并一个癌肿的所有样本数据得到的整合后的表达矩阵文件的列名是文件的编号名称,不是样本的编号,因此需要文件编号的列名转换成样本编号形式的列名,先将癌肿下的所有文件编号名称构造并添加到一个json格式(基于JavaScript的轻量级数据交换格式)的文件,利用该含有所有文件名的该转换文件从癌症基因组图谱平台获取转换后的样本注释信息,得到文件编号和样本编号的对应关系,从而将表达矩阵中的所有文件编号形式的列名转换为样本编号形式的形式的列名,转换后的列名在后续数据分析中更为常用。
S2.2.4、将多组学数据中的基因编号转换成正式的基因名称;
癌症基因组图谱中的多组学数据的原始文件中,基因通常是以基因编号的表示形式,生物科研人员往往只认识基因的正式名称,利用人类基因组的注释文件中基因编号与基因名间的对应关系,将癌症基因组图谱中转换后的每种组学文件中的基因编号转换成正式容易辨别的正式的基因名称。
S2.2.5、对癌症基因组图谱的多组学数据中的甲基化位点进行注释;
在经过前面将多组学文件按照染色体编号进行分割成每个染色体对应的子文件后,对于甲基化芯片数据和全基因组甲基化测序,根据检测的甲基化位点在基因组的染色体上的起始位点和终止位点信息,并根据基因在基因组的染色体上的起始位点和终止位点,以及基因的转录起始位点在基因组的染色体上的位置,将每个检测到的甲基化位点的位置匹配到某个基因上,并根据该基因的转录起始位点所在的位置与该甲基化位点的距离,将该甲基化位点注释成该基因上离转录起始因子上游多少距离或离转录起始因子下游多少距离。例如-30_CABLES1这个甲基化位点的注释信息表示的甲基化位点是CABLES1基因的转录因子上游第30位碱基上发生的甲基化。
S2.2.6、提取和整合癌症基因组图谱中的临床病理数据;
从癌症基因组图谱官网下载的数据是XML(可拓展标示语言)格式的网页文件,使用R语言中的XML2包读取癌症基因组图谱可拓展标示语言格式的临床文件,并从可拓展标示语言格式的网页文件的每个节点中提取有效的各种临床病理信息,并转换成矩阵格式的表格数据,将所有样本提取到的临床信息合并成一个表格文件。
第3步:临床数据与多组学数据的交互式整合分析
S3.1、将癌症基因组图谱平台和国际基因组联盟平台的多组学数据按照每个基因进行分割整合在一起;
国际癌症基因组联盟和癌症基因组图谱的部分癌肿的组学文件体积较大,直接将整个文件读取到内存中,会占用较大的内存空间,对癌症基因组图谱平台和国际基因组联盟平台的多组学的表达矩阵文件按照每个文件中的基因名称进行分割,将癌症基因组图谱和国际癌症基因组联盟的多组学表达矩阵文件按照基因名称分割成单基因的文件,每个文件体积较小,读取速度更快,占用内存更小,这种小文件能快速读取到R环境中,并按照基因名提取出单个基因的数据信息,并将单个基因含有的组学数据写入到每个组学目录下。
在将癌症基因组图谱的组学数据和国际癌症基因组联盟的组学数据按基因名进行分割时候,将同一个基因相同组学的癌症基因组图谱癌肿的数据和国际癌症基因组联盟癌肿的数据追加写入到一个文件中,这样就把癌症基因组图谱和国际癌症基因组联盟的数据按基因合并在一起。
S3.2、通过癌症基因组图谱和国际基因组联盟平台整合后的数据构建在线交互式综合分析平台,简称TIMIA(http://timia.cn)。
实施例2
如图1和图2所示,本具体实例提供了一种基于癌症基因组图谱、国际癌症基因组联盟的多组学数据交互式分析方法,其具体包括以下下内容:
构建癌症基因组图谱和国际癌症基因组联盟的综合分析系统和在线交互式综合分析平台TIMIA,该在线交互式综合分析平台分为六个部分:主页版块、RNA数据分析版块、蛋白质数据分析版块、甲基化数据分析版块、拷贝数变异分析版块、突变分析版块。
S3.2.1、构建交互式分析平台的主页版块过程:
S3.2.1.1、使用R语言的shiny包在前端界面中添加一个主页菜单,在主页菜单下使用面板函数添加了介绍,帮助两个选项卡面板。
S3.2.1.2、构建主页菜单栏下的介绍选项卡,添加平台的介绍信息页面:
绘制交互式分析平台的图标,技术框架图和分析结果的展示图,编写交互式分析平台的特点和概要,将这些图片和内容信息写入到网页文件中,加载创建的含有介绍信息的网页文件,就能在平台前端的用户网页界面中显示出该平台的介绍信息。
S3.2.1.3、构建主页菜单栏下的帮助选项卡,生成平台的帮助信息页面:
将平台中所有的菜单和选项卡下的功能模块的具体参数和解释说明信息写入到网页文件中,使用网页加载函数加载创建的含有平台帮助信息的网页文件,就能在平台前端的用户界面显示出详细的帮助信息。
S3.2.2、构建交互式分析平台的RNA数据交互式分析板块过程:
在前端界面添加五个分析面板:
R语言的shiny前端的界面中添加一个RNA数据交互式分析板块的菜单,RNA数据交互式分析板块的菜单栏下依次添加泛癌分析、单癌肿分析、生存分析、临床病理参数分析和相关性分析五个分析面板。
S3.2.2.1、RNA数据的泛癌交互式分析面板构建:
1.RNA数据的泛癌交互式分析功能的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出6列,这六列依次添加RNA类型、基因名称、数据类型、提交、保存图片的类型、图片下载这六个选项,在第二个行区域对数据进行分析并展示分析后的结果图片。
在RNA类型的分析中,我们将RNA的类型分类成了蛋白编码的信使RAN、反义RNA、长链非编码RNA、微小RNA、混杂RNA、假基因、核糖体RNA、小核RNA、核仁小RNA、细胞核小分子RNA、小RNA、转运RNA这12种类型,可以对每种类型的RNA基因进行单独分析,例如可以选择编码蛋白质的信使RNA的转录水平数据进行分析。
2.RNA数据分析版块的泛癌数据的交互式分析和作图的后端实现过程:
第(1)步:将癌症基因组图谱和国际癌症基因组联盟中的转录组测序数据的所有基因按照12种RNA类型进行分类,用户可以对感兴趣的某些RNA类型的基因进行单独分析.在前端页面第一个行区域的第1列的RNA类型中,如果用户选择了某一种RNA类型后,会在后台分析该种RNA类型含有的基因个数,如果该RNA类型的基因数量大于500个,就让用户在第一个行区域的第2列的基因名称输入框里自行输入该基因的基因名称,如果该RNA类型的基因数量小于500个,会将该RNA类型包含的所有基因名称以下拉框的方式在第一个行区域的第2列的基因名称下显示出改RNA类型包含的所有基因名称,用户只需要从下拉框里选择感兴趣的基因进行分析即可。
第(2)步:当用户在第一个行区域的第一列RNA类型中选择好感兴趣的RNA类型后,在第2列基因名称中也输入了要分析的基因名称,此时在后台会分析该基因在癌症基因组图谱和国际癌症基因组联盟的RNA数据中的转录组测序数据(exp_seq)和基因芯片数据(exp_array)两种RNA数据类型,并动态显示出该基因含的数据类型,如果从转录组测序数据和基因芯片数据中都找不到含有该基因名称的数据文件的话,就会在网页中返回该基因名称错误或不存在,如果一种或两种数据类型中有该基因的数据文件,就将存在的数据类型在用户界面动态地显示出来。
第(3)步:当用户在第一个行区域的第4列的提交按钮提交该分析后,会在后台对该基因在癌症基因组图谱和国际癌症基因组联盟中所有癌肿中进行泛癌分析,首先会读取用户选择的转录组测序数据或基因芯片中包含的所有癌肿的数据,如果是转录组测序数据,会对表达数据进行log2(表达值+1)的预处理,压缩RNA表达值的尺度,并保证表达值为正值。
第(4)步:使用R语言中的箱式图绘图工具在一张图里绘制所有癌肿关于该基因的表达箱式图,如果该癌肿中存在正常组织,就对该癌肿中的正常组织和肿瘤组织的表达值进行分组绘制,并使用两样本的威尔科克森秩和检验进行肿瘤组织和正常组织的差异分析,如果该基因在某些癌肿中的肿瘤组织和正常组织中存在表达差异,就用*号标记在该癌肿的箱式图的上方,*表示P<0.05。
第(5)步:当所有的分析结果和作图完成后,就将绘制的泛癌表达的箱式图在泛癌肿选项卡下页面的第二个行区域中显示出来。
第(6)步:当用户在第一个行区域的第5列的保存图片类型中选择了要保存为png或pdf格式的图像,并选择了下载图片,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,将图像下载到用户本地的电脑中。
S3.2.2.2、RNA数据的单癌肿分析面板的构建
1.RNA数据的单癌肿分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出7列,这7列依次添加RNA类型、基因名称、数据类型、癌肿类型、提交、保存图片的类型、图片下载这7个选项,在第二个行区域对数据进行分析并展示分析后的结果图片。
2.RNA分析版块的单癌肿的后端交互式分析的实现过程:
第(1)步:将癌症基因组图谱和国际癌症基因组联盟中的转录组测序数据的所有基因按照12种RNA类型进行分类,用户可以对感兴趣的某些RNA类型的基因进行单独分析。在前端页面第一个行区域的第1列的RNA类型中,如果用户选择了某一种RNA类型后,会在后台分析该种RNA类型含有的基因个数,如果该RNA类型的基因数量大于500个,就让用户在第一个行区域的第2列的基因名称输入框里自行输入该基因的基因名称,如果该RNA类型的基因数量小于500个,会将该RNA类型包含的所有基因名称以下拉框的方式在第一个行区域的第2列的基因名称下显示出改RNA类型包含的所有基因名称,用户只需要从下拉框里选择感兴趣的基因进行分析即可。
第(2)步:当用户在第一个行区域的第1列RNA类型中选择好感兴趣的RNA类型后,在第2列基因名称中也输入了要分析的基因名称,此时在后台会分析该基因在癌症基因组图谱和国际癌症基因组联盟的RNA数据中的转录组测序数据和基因芯片数据两种RNA数据类型中中动态给出该基因含有的癌症基因组图谱和国际癌症基因组联盟的数据类型,如果从转录组测序数据和基因芯片数据中都找不到含有该基因名称的数据文件的话,就会在网页中返回该基因名称错误或不存在,如果从转录组测序数据或基因芯片数据或者两种类型中都有该基因的数据文件,就将存在的转录组测序数据或基因芯片数据,或者两者都包含的数据类型在用户界面动态地显示出来。
第(3)步:对于第(2)选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会读取用户选择的某个基因的在该癌肿中的转录组测序数据或基因芯片数据。
第(4)步:使用R语言中的ggplot2绘图包中的小提琴图绘制工具绘制该癌肿中关于该基因RNA表达水平的小提琴图,并在小提琴图的基础上追加绘制散点图,如果该癌肿中存在正常组织,就对该癌肿中的正常组织和肿瘤组织的表达值进行分组绘制,并使用肿瘤组织的表达均值除以正常组织的表达均值计算该基因在肿瘤组织中相较于在正常组织中的差异倍数,并使用两样本的威尔科克森秩和检验进行肿瘤组织和正常组织的差异分析,并在图中显示出差异倍数和p值大小。
第(5)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的差异表达分析的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来。
第(6)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中。
S3.2.2.3、RNA分析菜单栏下的生存分析面板构建
1.RNA数据的生存分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出7列,这7列依次添加RNA类型、基因名称、数据类型、癌肿类型、提交、保存图片的类型、图片下载这7个选项,在第二个行区域对数据进行分析并展示分析后的结果图片。
2.RNA分析版块的生存选项卡的后端生存分析和可视化实现过程:
第(1)步:将癌症基因组图谱和国际癌症基因组联盟中的转录组测序数据的所有基因按照12种RNA类型进行分类,用户可以对感兴趣的某些RNA类型的基因进行单独分析.在前端页面第一个行区域的第1列的RNA类型中,如果用户选择了某一种RNA类型后,会在后台分析该种RNA类型含有的基因个数,如果该RNA类型的基因数量大于500个,就让用户在第一个行区域的第2列的基因名称输入框里自行输入该基因的基因名称,如果该RNA类型的基因数量小于500个,会将该RNA类型包含的所有基因名称以下拉框的方式在第一个行区域的第2列的基因名称下显示出改RNA类型包含的所有基因名称,用户只需要从下拉框里选择感兴趣的基因进行分析即可。
第(2)步:当用户在第一个行区域的第1列RNA类型中选择好感兴趣的RNA类型后,在第2列基因名称中也输入了要分析的基因名称,此时在后台会分析该基因在癌症基因组图谱和国际癌症基因组联盟的RNA数据中的转录组测序数据和基因芯片数据两种RNA数据类型中中动态给出该基因含有的癌症基因组图谱和国际癌症基因组联盟的数据类型,如果从转录组测序数据和基因芯片数据中都找不到含有该基因名称的数据文件的话,就会在网页中返回该基因名称错误或不存在,如果从转录组测序数据或基因芯片数据或者两种类型中都有该基因的数据文件,就将存在的转录组测序数据或基因芯片数据,或者两者都包含的数据类型在用户界面动态地显示出来。
第(3)步:对于第(2)选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的某个基因的在该癌肿中的转录组测序数据或基因芯片数据。
第(4)步:读取该癌症的临床病理数据信息,并将该癌肿的临床病理数据与该基因在该癌肿中的RNA表达数据进行合并,提取出表达值,病人的随访状态(其中死亡事件记为1,截尾数据记为0),病人的生存时间(天数)3列数据进行生存分析,将该基因的表达值与该癌肿的正常组织的均值进行比较,把在肿瘤组织中的表达值高于正常组织表达均值的样本数据都划分为高表达组,把低于正常组织表达均值的样本数据都划分为低表达组,根据生存时间和随访状态创建生存数据对象,对生存时间,病人随访状态对应的表达数据的分组情况使用乘积极限法构造生存曲线,使用对数秩检验分析高表达组与低表达组的生存曲线是否存在差异,使用R语言绘制生存曲线,并将生存分析的p值显示在生存曲线的图中。
第(5)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的生存曲线图在前端页面的第二个行区域中显示出来。
第(6)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中。
S3.2.2.4、RNA分析菜单栏下的临床病理参数交互式分析面板的构建:
1.RNA数据的临床病理分析的交互式分析前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出7列,这7列依次添加RNA类型、基因名称、数据类型、癌肿类型、临床病理参数分组提交、保存图片的类型、图片下载这7个选项,在第二个行区域对数据进行分析并展示分析后的结果图片。
2.RNA分析版块的临床病理参数选项卡的后端临床病理参数交互式分析和可视化实现:
第(1)步:将癌症基因组图谱和国际癌症基因组联盟中的转录组测序数据的所有基因按照12种RNA类型进行分类,用户可以对感兴趣的某些RNA类型的基因进行单独分析。在前端页面第一个行区域的第1列的RNA类型中,如果用户选择了某一种RNA类型后,会在后台分析该种RNA类型含有的基因个数,如果该RNA类型的基因数量大于500个,就让用户在第一个行区域的第2列的基因名称输入框里自行输入该基因的基因名称,如果该RNA类型的基因数量小于500个,会将该RNA类型包含的所有基因名称以下拉框的方式在第一个行区域的第2列的基因名称下显示出改RNA类型包含的所有基因名称,用户只需要从下拉框里选择感兴趣的基因进行分析即可。
第(2)步:当用户在第一个行区域的第1列RNA类型中选择好感兴趣的RNA类型后,在第2列基因名称中也输入了要分析的基因名称,此时在后台会分析该基因在癌症基因组图谱和国际癌症基因组联盟的RNA数据中的转录组测序数据和基因芯片数据两种RNA数据类型中中动态给出该基因含有的癌症基因组图谱和国际癌症基因组联盟的数据类型,如果从转录组测序数据和基因芯片数据中都找不到含有该基因名称的数据文件的话,就会在网页中返回该基因名称错误或不存在,如果从转录组测序数据或基因芯片数据或者两种类型中都有该基因的数据文件,就将存在的转录组测序数据或基因芯片数据,或者两者都包含的数据类型在用户界面动态地显示出来。
第(3)步:对于第(2)选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的某个基因的在该癌肿中的转录组测序数据或基因芯片数据,读取该癌症的临床病理数据信息,并将该癌肿的临床病理数据与该基因在该癌肿中的RNA表达数据进行合并。
第(4)步:使用R语言中的ggplot2绘图包中的小提琴图绘制工具绘制该癌肿中关于该基因RNA表达水平的小提琴图,按照选择的临床病理参数分组对小提琴图进行分组绘制,并在小提琴图的基础上追加绘制散点图,如果该临床病理分组组数为2组,就使用两样本的威尔科克森秩和检验进行2组数据间的差异分析,如果该临床病理分组组数>2组,就使用克鲁斯卡尔-沃里斯检验判断这几组数据间是否存在差异,如果多组数据间存在差异,P值<0.05,并使用威尔科克森检验进行两两比较,分析每两组间的表达值是否存在差异。
第(5)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的临床病理参数关联的差异表达分析的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来
第(6)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中。
S3.2.2.5、RNA分析菜单栏下的相关性分析面板构建过程:
1.在前端界面中划分出两个行区域,第一个行区域分割出8列,这8列依次添加靶基因类型、靶基因名称、关联的基因类型、关联的基因名称、癌肿类型、提交、保存图片的类型、图片下载这8个列,在第二个行区域对数据进行分析并展示分析后的结果图片。
2.RNA分析版块的相关性分析选项卡的后端相关性分析和可视化实现:
第(1)步:将癌症基因组图谱和国际癌症基因组联盟中的转录组测序数据的所有基因按照12种RNA类型进行分类,用户可以对感兴趣的某些RNA类型的基因进行单独分析。在前端页面第一个行区域的第1列的RNA类型中,如果用户选择了某一种RNA类型后,会在后台分析该种RNA类型含有的基因个数,如果该RNA类型的基因数量大于500个,就让用户在第一个行区域的第2列的基因名称输入框里自行输入该基因的基因名称,如果该RNA类型的基因数量小于500个,会将该RNA类型包含的所有基因名称以下拉框的方式在第一个行区域的第2列的基因名称下显示出改RNA类型包含的所有基因名称,用户只需要从下拉框里选择感兴趣的基因进行分析即可。
第(2)步:当用户在第一个行区域的第1列RNA类型中选择好感兴趣的RNA类型后,在第2列基因名称中也输入了要分析的基因名称,此时在后台会分析该基因在癌症基因组图谱和国际癌症基因组联盟的RNA数据中的转录组测序数据和基因芯片数据两种RNA数据类型中中动态给出该基因含有的癌症基因组图谱和国际癌症基因组联盟的数据类型,如果从转录组测序数据和基因芯片数据中都找不到含有该基因名称的数据文件的话,就会在网页中返回该基因名称错误或不存在,如果从转录组测序数据或基因芯片数据或者两种类型中都有该基因的数据文件,就将存在的转录组测序数据或基因芯片数据,或者两者都包含的数据类型在用户界面动态地显示出来。
第(3)步:将用户在前端网页中的第一个行区域的第4列关联基因的文本框中输入的一组基因名提取出来,并根据基因名的逗号分割得到一组相关性分析的基因列表。
第(4)步:当用户在第一个行区域的第5列选择了要分析的癌肿名称后,并对第6列的提交按钮进行点击提交后,会在后台读取靶基因对应的靶基因数据类型下包含的该癌肿的数据,以及关联基因对应的数据类型下的数据,靶基因类型和关联基因的数据类型这两个数据类型可以相同也可以不同,这样就可以进行信使RNA-小RNA,信使RNA-长链非编码RNA,长链非编码RNA-小RNA,信使RNA-拷贝数变异等RNA-RNA和RNA与其它各种多组学间的相关性分析。
第(5)步:使用for循环对一组关联的基因列表与靶基因进行批量相关性分析,使用R语言中的相关性分析函数进行皮尔逊相关性分析和相关性分析的显著性检验。
第(6)步:使用R语言绘制相关性的散点图,在散点图种添加一条拟合的直线,并将上一步相关性分析得到的皮尔逊相关性系数和P值写入到图中。
第(7)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的差异表达分析的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来,多个相关性分析结果图排列在一张图中。
第(8)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中。
S3.2.3、构建蛋白质分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个蛋白分析模块的菜单,蛋白分析模块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板。
S3.2.3.1、构建蛋白质分析版块的泛癌交互式分析面板:
1.蛋白质数据的泛癌交互式分析功能的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出5列,这5列依次添加基因名称、数据类型、提交、保存图片的类型、图片下载这5个选项,在第二个行区域对数据进行分析并展示分析后的结果图片。
2.蛋白表达数据分析版块的泛癌数据的交互式分析和作图的后端实现过程:
第(1)步:读取蛋白芯片中所有的基因的抗体名称,在前端的基因名称栏中以下拉框的方式动态显示出蛋白芯片中包含的所有基因的抗体名称。
第(2)步:当用户在第一个行区域的第一列基因名称列中选择好感兴趣的基因的抗体名称后,在第2列的数据类型中自动选择蛋白表达的数据类型选项。
第(3)步:当用户在第一个行区域的第4列的提交按钮提交该分析后,会在后台自动读取用户选择的基因包含的所有癌肿的蛋白表达数据。
第(4)步:使用R语言中的箱式图绘图工具在一张图里绘制所有癌肿关于该基因的蛋白表达数据的箱式图,如果该癌肿中存在正常组织,就对该癌肿中的正常组织和肿瘤组织的表达值进行分组绘制,并使用两样本的威尔科克森秩和检验进行肿瘤组织和正常组织的差异分析,如果该基因在某些癌肿中的肿瘤组织和正常组织中存在表达差异,就用*号标记在该癌肿的箱式图的上方,*表示P<0.05。
第(5)步:当所有的分析结果和作图完成后,就将绘制的泛癌表达的箱式图在泛癌肿选项卡下页面的第二个行区域中显示出来。
第(6)步:当用户在第一个行区域的第5列的保存图片类型中选择了要保存为png或pdf格式的图像,并选择了下载图片,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,将图像下载到用户本地的电脑中。
S3.2.3.2、构建蛋白质分析版块的单癌肿分析面板:
1.蛋白数据的单癌肿分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出6列,这六列依次添加基因名称、数据类型、癌肿类型、提交、保存图片的类型、图片下载这六个选项,在第二个行区域对数据进行分析并展示分析后的结果图片。
2.蛋白表达分析版块的单癌肿的后端交互式分析的实现过程:
第(1)步:读取蛋白芯片中所有的基因的抗体名称,在前端的基因名称栏中以下拉框的方式动态显示出蛋白芯片中包含的所有基因的抗体名称。
第(2)步:当用户在第一个行区域的第一列基因名称列中选择好感兴趣的基因的抗体名称后,在第2列的数据类型中自动选择蛋白表达的数据类型选项。
第(3)步:对于第(2)选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的基因对应的该癌肿的蛋白表达数据。
第(4)步:使用R语言中的ggplot2绘图包中的小提琴图绘制工具绘制该癌肿中关于该基因蛋白表达水平的小提琴图,并在小提琴图的基础上追加绘制散点图,如果该癌肿中存在正常组织,就对该癌肿中的正常组织和肿瘤组织的表达值进行分组绘制,并使用肿瘤组织的表达均值除以正常组织的表达均值计算该基因在肿瘤组织中相较于在正常组织中的差异倍数,并使用两样本的威尔科克森秩和检验进行肿瘤组织和正常组织的差异分析,并在图中显示出差异倍数和p值大小。
第(5)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的差异表达分析的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来。
第(6)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小、排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中。
S3.2.3.3、构建蛋白质分析版块的生存分析面板:
1.蛋白表达数据的生存分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出6列,这6列依次添加基因名称、数据类型、癌肿类型、提交、保存图片的类型、图片下载这6个选项,在第二个行区域对数据进行分析并展示分析后的结果图片。
2.蛋白表达分析版块的生存选项卡的后端生存分析和可视化实现过程:
第(1)步:读取蛋白芯片中所有的基因的抗体名称,在前端的基因名称栏中以下拉框的方式动态显示出蛋白芯片中包含的所有基因的抗体名称。
第(2)步:当用户在第一个行区域的第一列基因名称列中选择好感兴趣的基因的抗体名称后,在第2列的数据类型中自动选择蛋白表达的数据类型选项。
第(3)步:对于第(2)选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的基因对应的该癌肿的蛋白表达数据,
第(4)步:读取该癌症的临床病理数据信息,并将该癌肿的临床病理数据与该基因在该癌肿中的蛋白表达数据进行合并,提取出表达值,病人的随访状态(其中死亡事件记为1,截尾数据记为0),病人的生存时间(天数)3列数据进行生存分析,将该基因的表达值与该癌肿的正常组织的均值进行比较,把在肿瘤组织中的表达值高于正常组织表达均值的样本数据都划分为高表达组,把低于正常组织表达均值的样本数据都划分为低表达组,根据生存时间和随访状态创建生存数据对象,对生存时间,病人随访状态对应的表达数据的分组情况使用乘积极限法构造生存曲线,使用对数秩检验分析高表达组与低表达组的生存曲线是否存在差异,使用R语言绘制生存曲线,并将生存分析的p值显示在生存曲线的图中。
第(5)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的生存分析图在前端页面的第二个行区域中显示出来。
第(6)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中。
S3.2.3.4、构建蛋白质分析版块的临床病理参数交互式分析面板:
1.蛋白表达数据的临床病理分析的交互式分析前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出7列,这7列依次添加基因名称、数据类型、癌肿类型、临床病理参数分组、提交、保存图片的类型、图片下载这7个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.蛋白表达分析版块的临床病理参数选项卡的后端临床病理参数交互式分析和可视化实现:
第(1)步:读取蛋白芯片中所有的基因的抗体名称,在前端的基因名称栏中以下拉框的方式动态显示出蛋白芯片中包含的所有基因的抗体名称;
第(2)步:当用户在第一个行区域的第一列基因名称列中选择好感兴趣的基因的抗体名称后,在第2列的数据类型中自动选择蛋白表达的数据类型选项;
第(3)步:对于第(2)步选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的基因包含的所有癌肿的蛋白表达数据;
第(4)步:使用R语言中的ggplot2绘图包中的小提琴图绘制工具绘制该癌肿中关于该基因蛋白表达水平的小提琴图,按照选择的临床病理参数分组对小提琴图进行分组绘制,并在小提琴图的基础上追加绘制散点图,如果该临床病理分组组数为2组,就使用两样本的威尔科克森秩和检验进行2组数据间的差异分析,如果该临床病理分组组数>2组,就使用克鲁斯卡尔-沃里斯检验判断这几组数据间是否存在差异,如果多组数据间存在差异,P值<0.05,并使用威尔科克森检验进行两两比较,分析每两组间的表达值是否存在差异;
第(5)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的临床病理参数分组关联的差异表达分析的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来;
第(6)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小、排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.3.5、构建蛋白质分析版块的相关性分析面板:
1.在前端界面中划分出两个行区域,第一个行区域分割出8列,这8列依次添加靶基因类型、靶基因名称、关联的基因类型、关联的基因名称、癌肿类型、提交、保存图片的类型、图片下载这8个列,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.蛋白质分析版块的相关性分析选项卡的后端相关性分析和可视化实现:
第(1)步:在第一个行区域的第1列的靶基因数据类型中以下拉框的方式显示出编码RNA和十余种非编码RN、蛋白表达、拷贝数变异、甲基化等多组学数据类型;
第(2)步:当用户在第一个行区域的第1列的靶基因数据类型中选择好感兴趣的蛋白表达数据类型后,在第2列基因名称中也输入了要分析的靶基因名称,此时在后台会分析该基因在癌症基因组图谱和国际癌症基因组联盟的数据中的蛋白表达数据中是否存在,如果从蛋白表达芯片数据中找不到含有该基因名称的数据文件的话,就会在网页中返回该基因名称错误或不存在;
第(3)步:将用户在前端网页中的第一个行区域的第4列关联基因的文本框中输入的一组基因名提取出来,并根据基因名的逗号分割得到一组相关性分析的基因列表;
第(4)步:当用户在第一个行区域的第5列选择了要分析的癌肿名称后,并对第6列的提交按钮进行点击提交后,会在后台读取靶基因对应的靶基因数据类型下包含的该癌肿的数据,以及关联基因对应的数据类型下的数据,靶基因类型和关联基因的数据类型这两个数据类型可以相同也可以不同,这样就可以进行蛋白表达-信使RNA,信使RNA-小RNA,信使RNA-长链非编码RNA,长链非编码RNA-小RNA、信使RNA-拷贝数变异等RNA-RNA和RNA与其它各种多组学间的相关性分析;
第(5)步:使用for循环对一组关联的基因列表与靶基因进行批量相关性分析,使用R语言中的相关性分析函数进行皮尔逊相关性分析和相关性分析的显著性检验;
第(6)步:使用R语言绘制相关性的散点图,在散点图种添加一条拟合的直线,并将上一步相关性分析得到的皮尔逊相关性系数和P值写入到图中;
第(7)步:当所有的分析结果和作图完成后,就将绘制的相关性分析散点图在前端页面的第二个行区域中显示出来,多个相关性分析结果图排列在一张图中;
第(8)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.4、构建甲基化分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个甲基化分析版块的菜单,甲基化分析版块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、单位点分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;
S3.2.4.1、构建甲基化分析版块的泛癌交互式分析面板:
1.甲基化数据的泛癌交互式分析功能的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出5列依次添加基因名称,数据类型,提交,保存图片的类型,图片下载这5个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.甲基化分析版块的泛癌数据的交互式分析和作图的后端实现过程:
第(1)步:当用户在第一个行区域的基因名称列中输入感兴趣的基因名称后,在后台的甲基化芯片和甲基化测序数据中检测是否存在该基因的甲基化数据,并动态生成存在该基因的甲基化芯片数据类型或者甲基化测序数据类型或同时两种数据类型都有;
第(2)步:当用户选择了感兴趣的甲基化数据类型(甲基化芯片数据或全基因组甲基化测序数据),并在第一个行区域勾选提交按钮提交该分析后,会在后台自动读取用户选择的基因包含的所有癌肿的甲基化数据,并对该基因的所有位点的甲基化数据取均值;
第(3)步:使用R语言中的箱式图绘图工具在一张图里绘制所有癌肿关于该基因的甲基化数据的箱式图,如果该癌肿中存在正常组织,就对该癌肿中的正常组织和肿瘤组织的甲基化水平值进行分组绘制,并使用两样本的威尔科克森秩和检验进行肿瘤组织和正常组织的差异分析,如果该基因在某些癌肿中的肿瘤组织和正常组织中存在甲基化水平差异,就用*号标记在该癌肿的箱式图的上方,*表示P<0.05;
第(4)步:当所有的分析结果和作图完成后,就将绘制的泛癌甲基化水平的箱式图在泛癌分析的前端页面的第二个行区域中显示出来;
第(5)步:当用户在第一个行区域的第5列的保存图片类型中选择了要保存为png或pdf格式的图像,并选择了下载图片,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,将图像下载到用户本地的电脑中;
S3.2.4.2、构建甲基化分析版块的单癌肿分析面板:
1.甲基化数据的单癌肿分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出6列,这六列依次添加基因名称,数据类型,癌肿类型,提交,保存图片的类型,图片下载这六个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.甲基化分析版块的单癌肿的后端交互式分析的实现过程:
第(1)步:当用户在第一个行区域的基因名称列中输入感兴趣的基因名称后,在后台的甲基化芯片和甲基化测序数据中检测是否存在该基因的甲基化数据,并动态生成存在该基因的甲基化芯片数据类型或者甲基化测序数据类型或同时两种数据类型都有;
第(2)步:选择好感兴趣的甲基化数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的基因对应的该癌肿的甲基化数据;
第(3)步:上一步读取了基因在癌肿中的甲基化数据后,绘制热图显示该基因的甲基化位点的在该癌肿的所有样本中的甲基化水平的聚类热图;,首先计算该基因的甲基化位点间的欧式距离,并使用最长距离法对距离矩阵进行层次聚类分析,将聚类分析的结果转换成树状图格式,并使用聚类函数绘制聚类分析的树状图,使用ggplot2绘制甲基化数据的热图,并聚类图和热图拼接在一起,聚类树在上方,高度为0.2,甲基化热图在下方,高度为0.8,组合成一个完整的聚类热图;
第(4)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的该基因的甲基化位点的聚类热图在单癌肿选项卡下页面的第二个行区域中显示出来
第(5)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.4.3、构建甲基化分析版块的单位点分析面板:
1.甲基化数据的单位点分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出7列,这7列依次添加基因名称、数据类型、癌肿类型、甲基化位点、提交、保存图片的类型、图片下载这7个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.甲基化分析版块的单位点的后端交互式分析的实现过程:
第(1)步:当用户在第一个行区域的基因名称列中输入感兴趣的基因名称后,在后台的甲基化芯片和甲基化测序数据中检测是否存在该基因的甲基化数据,并动态生成存在该基因的甲基化芯片数据类型或者甲基化测序数据类型或同时两种数据类型都有;
第(2)步:选择好感兴趣的甲基化数据类型,会在前端界面的第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示;
第(3)步:当用户在第一个行区域的第3列癌肿项目下选择了要分析的癌肿名称后,在后台自动读取用户选择的基因对应的该癌肿的甲基化数据,分析该基因的甲基化数据中包含的所有甲基化位点,并将甲基化位点信息在前端的第一个行区域的甲基化位点列中以下拉框的方式显示出来;
第(4)步:选择了感兴趣的甲基化位点后,点击提交按钮,会在后台读取基因在癌肿中的甲基化数据,并提取出该甲基化位点的甲基化数据;
第(5)步:使用R语言中的ggplot2绘图包中的小提琴图绘制工具绘制该癌肿中关于该基因该甲基化位点的甲基化水平的小提琴图,并在小提琴图的基础上追加绘制散点图,如果该癌肿中存在正常组织,就对该癌肿中的正常组织和肿瘤组织的甲基化值进行分组绘制,并使用肿瘤组织的甲基化均值均值除以正常组织的甲基化均值计算该基因在肿瘤组织中相较于在正常组织中的差异倍数,并使用两样本的威尔科克森秩和检验进行肿瘤组织和正常组织的差异分析,并在图中显示出差异倍数和p值大小;
第(6)步:当所有的分析结果和作图完成后,就将绘制的单甲基化位点的差异甲基化水平分析的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来;
第(7)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.4.4、构建甲基化分析版块的生存分析面板:
1.甲基化数据的生存分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出7列,这六列依次添加基因名称,数据类型,癌肿类型,甲基化位点,提交,保存图片的类型,图片下载这7个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.甲基化分析版块的生存选项卡的后端生存分析和可视化实现过程:
第(1)步:当用户在第一个行区域的基因名称列中输入感兴趣的基因名称后,在后台的甲基化芯片和甲基化测序数据中检测是否存在该基因的甲基化数据,并动态生成存在该基因的甲基化芯片数据类型或者甲基化测序数据类型或同时两种数据类型都有;
第(2)步:选择好感兴趣的甲基化数据类型,会在前端界面的第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示;
第(3)步:当用户在第一个行区域的第3列癌肿项目下选择了要分析的癌肿名称后,在后台自动读取用户选择的基因对应的该癌肿的甲基化数据,分析该基因的甲基化数据中包含的所有甲基化位点,并将甲基化位点信息在前端的第一个行区域的甲基化位点列中以下拉框的方式显示出来;
第(4)步:选择了感兴趣的甲基化位点后,点击提交按钮,会在后台读取基因在癌肿中的甲基化数据,并提取出该甲基化位点的甲基化数据;
第(5)步:读取该癌症的临床病理数据信息,并将该癌肿的临床病理数据与该基因在该癌肿中的甲基化数据进行合并,提取出甲基化水平值,病人的随访状态(其中死亡事件记为1,截尾数据记为0),病人的生存时间(天数)3列数据进行生存分析,将该基因的甲基化水平值与该癌肿的正常组织的均值进行比较,把在肿瘤组织中的甲基化水平值高于正常组织甲基化水平均值的样本数据都划分为高甲基化水平组,把低于正常组织甲基化水平均值的样本数据都划分为低甲基化水平组,根据生存时间和随访状态创建生存数据对象,对生存时间,病人随访状态对应的甲基化水平数据的分组情况使用乘积极限法构造生存曲线,使用对数秩检验分析高甲基化水平组与低甲基化水平组的生存曲线是否存在差异,使用R语言绘制生存曲线,并将生存分析的p值显示在生存曲线的图中;
第(6)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的差异甲基化水平分析的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来;
第(7)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.4.5、构建甲基化分析版块的临床病理参数交互式分析面板:
1.甲基化数据的临床病理分析的交互式分析前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出8列,这8列依次添加基因名称、数据类型、癌肿类型、甲基化位点、临床病理参数分组、提交、保存图片的类型、图片下载这7个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.甲基化分析版块的临床病理参数选项卡的后端临床病理参数交互式分析和可视化实现:
第(1)步:当用户在第一个行区域的基因名称列中输入感兴趣的基因名称后,在后台的甲基化芯片和甲基化测序数据中检测是否存在该基因的甲基化数据,并动态生成存在该基因的甲基化芯片数据类型或者甲基化测序数据类型或同时两种数据类型都有;
第(2)步:选择好感兴趣的甲基化数据类型,会在前端界面的第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示;
第(3)步:当用户在第一个行区域的第3列癌肿项目下选择了要分析的癌肿名称后,在后台自动读取用户选择的基因对应的该癌肿的甲基化数据,分析该基因的甲基化数据中包含的所有甲基化位点,并将甲基化位点信息在前端的第一个行区域的甲基化位点列中以下拉框的方式显示出来;
第(4)步:选择了感兴趣的甲基化位点后,点击提交按钮,会在后台读取基因在癌肿中的甲基化数据,并提取出该甲基化位点的甲基化数据;
第(5)步:使用R语言中的ggplot2绘图包中的小提琴图绘制工具绘制该癌肿中关于该基因该甲基化位点的水平的小提琴图,按照选择的临床病理参数分组对小提琴图进行分组绘制,并在小提琴图的基础上追加绘制散点图,如果该临床病理分组组数为2组,就使用两样本的威尔科克森秩和检验进行2组数据间的差异分析,如果该临床病理分组组数>2组,就使用克鲁斯卡尔-沃里斯检验判断这几组数据间是否存在差异,如果多组数据间存在差异,P值<0.05,并使用威尔科克森检验进行两两比较,分析每两组间的甲基化水平值是否存在差异;
第(5)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的差异甲基化水平分析的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来;
第(6)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.4.6、构建甲基化分析版块的相关性分析面板:
1.在前端界面中划分出两个行区域,第一个行区域分割出8列,这8列依次添加基因名称、基因的RNA数据类型、基因的甲基化数据类型、癌肿类型、甲基化位点、提交、保存图片的类型、图片下载这8个列,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.甲基化分析版块的相关性分析选项卡的后端相关性分析和可视化实现:
第(1)步:当用户在第一个行区域的基因名称列中输入感兴趣的基因名称后,在后台的基因芯片和转录组测序数据中检测是否存在该基因的基因芯片数据或转录组测序数据,并动态生成存在该基因的基因芯片数据类型或者转录组测序数据类型或同时两种数据类型都有;
第(2)步:选择好该基因的RNA数据类型后,在后台的甲基化芯片和甲基化测序数据中检测是否存在该基因的甲基化数据,并在前端的甲基化数据类型栏目下动态生成存在该基因的甲基化芯片数据类型或者甲基化测序数据类型或同时两种数据类型都有;
第(3)步:选择好感兴趣的甲基化数据类型,会在前端界面的第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示;
第(4)步:当用户在第一个行区域的第3列癌肿项目下选择了要分析的癌肿名称后,在后台自动读取用户选择的基因对应的该癌肿的甲基化数据,分析该基因的甲基化数据中包含的所有甲基化位点,并将甲基化位点信息在前端的第一个行区域的甲基化位点列中以下拉框的方式显示出来;
第(5)步:选择了一组感兴趣的甲基化位点后,点击提交按钮,会在后台读取基因在癌肿中的甲基化数据,并提取出选择的甲基化位点的甲基化数据,读取该基因的RNA表达数据;
第(6)步:使用for循环对一组关联的甲基化位点的甲基化数据与该基因的RNA表达数据进行批量相关性分析,使用R语言中的相关性分析函数进行皮尔逊相关性分析和相关性分析的显著性检验;
第(7)步:使用R语言绘制相关性的散点图,在散点图种添加一条拟合的直线,并将上一步相关性分析得到的皮尔逊相关性系数和P值写入到图中
第(8)步:当所有的分析结果和作图完成后,就将绘制的相关性分析散点图在前端页面的第二个行区域中显示出来,多个相关性分析结果图排列在一张图中;
第(9)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.5、构建拷贝数变异分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个拷贝数变异分析模块的菜单,拷贝数变异分析模块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;
S3.2.5.1、构建拷贝数变异分析版块的泛癌交互式分析面板:
1.拷贝数变异数据的泛癌交互式分析功能的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出5列,这5列依次添加基因名称、数据类型、提交、保存图片的类型、图片下载这5个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.拷贝数变异数据分析版块的泛癌数据的交互式分析和作图的后端实现过程:
第(1)步:当用户在第一个行区域的第一列基因名称列中输入感兴趣的基因名称后,在第2列的数据类型中自动选择拷贝数变异的数据类型选项;
第(2)步:当用户在第一个行区域的提交按钮提交该分析后,会在后台自动读取用户选择的基因包含的所有癌肿的拷贝数变异数据;
第(3)步:使用R语言中的ggplot2条形图绘图工具在一张图里绘制所有癌肿关于该基因的拷贝数变异数据的堆叠条形图,使用拷贝数变异的类别作为条形图颜色填空参数从而绘制出堆叠条形图来展示泛癌的拷贝数水平的可视化结果;
第(4)步:当所有的分析结果和作图完成后,就将绘制的泛癌拷贝数变异的堆叠条形图在泛癌肿选项卡下页面的第二个行区域中显示出来;
第(5)步:当用户在第一个行区域的第5列的保存图片类型中选择了要保存为png或pdf格式的图像,并选择了下载图片,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小、排版和600ppi的分辨率,将图像下载到用户本地的电脑中;
S3.2.5.2、构建拷贝数变异分析版块的单癌肿分析面板:
1.拷贝数变异数据的单癌肿分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出6列,这六列依次添加基因名称、数据类型、癌肿类型、提交、保存图片的类型、图片下载这六个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.拷贝数变异分析版块的单癌肿的后端交互式分析的实现过程:
第(1)步:当用户在第一个行区域的第一列基因名称列中输入感兴趣的基因名称后,在第2列的数据类型中自动选择拷贝数变异的数据类型选项;
第(2)步:对于上一步选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的基因对应的该癌肿的拷贝数变异数据;
第(3)步:统计每种拷贝数变异类别包含的样本数量,使用R语言中的ggplot2绘图包中的小提琴图绘制工具绘制该癌肿中关于该基因拷贝数变异水平的小提琴图,在小提琴图上追加散点图,并使用拷贝数变异类别进行散点和小提琴图的颜色填充;
第(4)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的拷贝数变异的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来;
第(5)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.5.3、构建拷贝数变异分析版块的生存分析面板:
1.拷贝数变异数据的生存分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出6列,这六列依次添加基因名称,数据类型,癌肿类型,提交,保存图片的类型,图片下载这六个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.拷贝数变异分析版块的生存选项卡的后端生存分析和可视化实现过程:
第(1)步:当用户在第一个行区域的第一列基因名称列中输入感兴趣的基因名称后,在第2列的数据类型中自动选择拷贝数变异的数据类型选项;
第(2)步:对于第(1)步选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的基因对应的该癌肿的拷贝数变异数据;
第(3)步:读取该癌症的临床病理数据信息,并将该癌肿的临床病理数据与该基因在该癌肿中的拷贝数变异数据进行合并,提取出拷贝数变异值,病人的随访状态(其中死亡事件记为1,截尾数据记为0),病人的生存时间(天数)3列数据进行生存分析,将该基因的拷贝数变异值与该癌肿的正常组织的均值进行比较,把在肿瘤组织中的拷贝数变异值高于正常组织拷贝数变异均值的样本数据都划分为高拷贝数变异组,把低于正常组织拷贝数变异均值的样本数据都划分为低拷贝数变异组,根据生存时间和随访状态创建生存数据对象,对生存时间,病人随访状态对应的拷贝数变异数据的分组情况使用乘积极限法构造生存曲线,使用对数秩检验分析高拷贝数变异组与低拷贝数变异组的生存曲线是否存在差异,使用R语言绘制生存曲线,并将生存分析的p值显示在生存曲线的图中;
第(4)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的拷贝数变异的生存分析图在前端页面的第二个行区域中显示出来;
第(5)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.5.4、构建拷贝数变异分析版块的临床病理参数交互式分析面板:
1.拷贝数变异数据的临床病理分析的交互式分析前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出7列,这7列依次添加基因名称、数据类型、癌肿类型、临床病理参数分组、提交、保存图片的类型、图片下载这7个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.拷贝数变异分析版块的临床病理参数选项卡的后端临床病理参数交互式分析和可视化实现:
第(1)步:当用户在第一个行区域的第一列基因名称列中选择好感兴趣的基因名称后,在第2列的数据类型中自动选择拷贝数变异的数据类型选项;
第(2)步:对于上一步选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的基因包含的所有癌肿的拷贝数变异数据;
第(3)步:使用R语言中的ggplot2绘图包中的小提琴图绘制工具绘制该癌肿中关于该基因拷贝数变异水平的小提琴图,按照选择的临床病理参数分组对小提琴图进行分组绘制,并在小提琴图的基础上追加绘制散点图,如果该临床病理分组组数为2组,就使用两样本的威尔科克森秩和检验进行2组数据间的差异分析,如果该临床病理分组组数>2组,就使用克鲁斯卡尔-沃里斯检验判断这几组数据间是否存在差异,如果多组数据间存在差异,P值<0.05,并使用威尔科克森检验进行两两比较,分析每两组间的拷贝数变异值是否存在差异;
第(4)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的临床病理参数分组关联的拷贝数变异分析的小提琴图+散点图的叠加图在单癌肿选项卡下页面的第二个行区域中显示出来;
第(5)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.5.5、构建拷贝数变异分析版块的相关性分析面板:
1.在前端界面中划分出两个行区域,第一个行区域分割出8列,这8列依次添加靶基因类型、靶基因名称、关联的基因类型、关联的基因名称、癌肿类型、提交、保存图片的类型、图片下载这8个列,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.拷贝数变异分析版块的相关性分析选项卡的后端相关性分析和可视化实现:
第(1)步:在第一个行区域的第1列的靶基因数据类型中以下拉框的方式显示出编码RNA和十余种非编码RNA、蛋白表达、拷贝数变异、甲基化等多组学数据类型;
第(2)步:当用户在第一个行区域的第1列的靶基因数据类型中选择好感兴趣的拷贝数变异数据类型后,在第2列基因名称中也输入了要分析的靶基因名称,此时在后台会分析该基因在癌症基因组图谱和国际癌症基因组联盟的数据中的拷贝数变异数据中是否存在,如果从拷贝数变异数据中找不到含有该基因名称的数据文件的话,就会在网页中返回该基因名称错误或不存在;
第(3)步:将用户在前端网页中的第一个行区域的第4列关联基因的文本框中输入的一组基因名提取出来,并根据基因名的逗号分割得到一组相关性分析的基因列表;
第(4)步:当用户在第一个行区域的第5列选择了要分析的癌肿名称后,并对第6列的提交按钮进行点击提交后,会在后台读取靶基因对应的靶基因数据类型下包含的该癌肿的数据,以及关联基因对应的数据类型下的数据,靶基因类型和关联基因的数据类型这两个数据类型可以相同也可以不同,这样就可以进行拷贝数变异-信使RNA、信使RNA-小RNA、信使RNA-长链非编码RNA、长链非编码RNA-小RNA、信使RNA-拷贝数变异等RNA-RNA和RNA与其它各种多组学间的相关性分析;
第(5)步:使用for循环对一组关联的基因列表与靶基因进行批量相关性分析,使用R语言中的相关性分析函数进行皮尔逊相关性分析和相关性分析的显著性检验;
第(6)步:使用R语言绘制相关性的散点图,在散点图种添加一条拟合的直线,并将上一步相关性分析得到的皮尔逊相关性系数和P值写入到图中;
第(7)步:当所有的分析结果和作图完成后,就将绘制的相关性分析散点图在第二个行区域中显示出来,多个相关性分析结果图排列在一张图中;
第(8)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.6、构建突变分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个突变分析模块的菜单,突变分析模块的菜单栏下依次添加泛癌交互式分析面板、单癌肿分析面板、生存分析面板、临床病理参数分析面板和关联分析面板;
S3.2.6.1、构建突变分析版块的泛癌交互式分析面板:
1.突变数据的泛癌交互式分析功能的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出5列,这六列依次添加基因名称,数据类型,提交,保存图片的类型,图片下载这5个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.突变分析版块的泛癌数据的交互式分析和作图的后端实现过程:
第(1)步:当用户在第一个行区域的第一列基因名称列中输入感兴趣的基因名称后,在第2列的数据类型中自动选择突变的数据类型选项;
第(2)步:当用户在第一个行区域的提交按钮提交该分析后,会在后台自动读取用户选择的基因包含的所有癌肿的突变数据;
第(3)步:使用R语言中的ggplot2条形图绘图工具在一张图里绘制所有癌肿关于该基因的突变数据的堆叠条形图,使用单核苷酸变异的类别作为条形图颜色填空参数从而绘制出堆叠条形图来展示泛癌的拷贝数水平的可视化结果;
第(4)步:当所有的分析结果和作图完成后,就将绘制的泛癌突变的堆叠条形图在泛癌肿选项卡下页面的第二个行区域中显示出来;
第(5)步:当用户在第一个行区域的第5列的保存图片类型中选择了要保存为png或pdf格式的图像,并选择了下载图片,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,将图像下载到用户本地的电脑中;
S3.2.6.2、构建突变分析版块的单癌肿分析面板:
1.突变数据的单癌肿分析的前端实现过程:在shiny前端界面中划分出两个行区域,第一个行区域分割出6列,这六列依次添加基因名称、数据类型、癌肿类型、提交、保存图片的类型、图片下载这六个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.突变分析版块的单癌肿的后端交互式分析的实现过程:
第(1)步:当用户在第一个行区域的第一列基因名称列中输入感兴趣的基因名称后,在第2列的数据类型中自动选择突变的数据类型选项;
第(2)步:对于上一步选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的基因对应的该癌肿的突变数据;
第(3)步:使用R语言中的ggplot2绘图工具绘制氨基酸位点变化的突变棒棒糖图;首先统计出发生氨基酸序列改变的所有错义突变位点,提取这些位点在氨基酸序列中的位置,以及突变的氨基酸位点,和该突变位点的个数;生成一个ggplot2绘图对象,使用突变数据作为绘图数据,将突变位点映射成x轴,突变位点的计数映射到y轴,在y=0处绘制一条较粗的水平基准线代表氨基酸序列,颜色设置成灰色,在水平基准线的基础上绘制连接突变位点的竖线段,线段在x轴上的位置是氨基酸位点的顺序位置,一端连接在基准线,一段连接到突变的圆点,线段的颜色设置成>灰色,使用散点图绘制突变点,将突变的位点绘制成较大的实心原点,颜色映射成氨基酸的突变信息,在突变位点的圆点处添加突变信息的注释文本;
第(4)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的突变棒棒糖图在单癌肿选项卡下页面的第二个行区域中显示出来;
第(5)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.6.3、构建突变分析版块的临床病理参数分析面板:
1.突变数据的瀑布图可视化分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出6列,这6列依次添加基因名称、数据类型、癌肿类型、提交、保存图片的类型、图片下载这六个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.突变分析版块的单癌肿的后端交互式分析的实现过程:
第(1)步:当用户在第一个行区域的第一列基因名称列中输入一组感兴趣的基因名称后,基因名称间用逗号隔开,在第2列的数据类型中自动选择突变的数据类型选项;
第(2)步:对于上一步选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取该癌肿的突变数据;
第(3)步:在后端提取出用户输入的一组基因,并读取该组基因的突变数据,使用R语言统计出该组基因中每个基因的突变分类(例如3'UTR(非翻译区),5'-非翻译区,内含子,沉默突变,位点剪切,错义突变,区域剪切),突变类型(是同义突变还是非同义突变)和突变频率,使用条形图工具绘制瀑布图上方的显示每个样本有义突变和无义突变比例的条形图作为瀑布图的顶图,绘制每个基因中的所有突变分类的热图,该样本中如果该基因没有发生突变,就用灰色显示,把发生突变的按照突变分类情况显示出不同的颜色,绘制出突变瀑布图的主图,然后根据每个基因的突变频率绘制出瀑布图的每个基因的突变频率图,作为瀑布图的右侧图,将顶部图,主图和右侧图按照对应的位置定义好每个子图显示位置的坐标,并将这三个子图按照对应位置拼接在一起形成一个完整的多基因的突变瀑布图来可视化突变结果;
第(4)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的突变瀑布图在前端页面的第二个行区域中显示出来;
第(5)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.6.4、构建突变分析版块的生存分析面板:
1.突变数据的生存分析的前端实现过程:
在shiny前端界面中划分出两个行区域,第一个行区域分割出6列,这六列依次添加基因名称,数据类型,癌肿类型,提交,保存图片的类型,图片下载这六个选项,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.突变分析版块的生存选项卡的后端生存分析和可视化实现过程:
第(1)步:当用户在第一个行区域的第一列基因名称列中输入感兴趣的基因名称后,在第2列的数据类型中自动选择突变的数据类型选项;
第(2)步:对于上一步选择的数据类型,会在第一个行区域的癌肿项目列下动态生成该基因包含的该数据类型下存在的癌肿项目的名称,内容以下拉框的方式在前端进行展示,当用户在第一个行区域的第3列选择了要分析的癌肿名称后,并对第4列的提交按钮进行点击提交后,会在后台自动读取用户选择的基因对应的该癌肿的突变数据;
第(3)步:读取该癌肿的全部突变数据,提取出所有参与突变检测的样本编号,将该基因中发生突变的样本全部归类为突变组,将该基因未检测到突变的样本全部归类为野生型组;
第(4)步:读取该癌症的临床病理数据信息,并将该癌肿的临床病理数据与该基因在该癌肿中的突变数据进行合并,提取出突变状态(突变型或野生型),病人的随访状态(其中死亡事件记为1,截尾数据记为0),病人的生存时间(天数)3列数据进行生存分析,根据生存时间和随访状态创建生存数据对象,对生存时间,病人随访状态对应的突变数据的分组情况使用乘积极限法构造生存曲线,使用对数秩检验分析高突变组与低突变组的生存曲线是否存在差异,使用R语言绘制生存曲线,并将生存分析的p值显示在生存曲线的图中;
第(5)步:当所有的分析结果和作图完成后,就将绘制的单癌肿的突变的生存分析图在前端页面的第二个行区域中显示出来;
第(6)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
S3.2.6.5、构建突变分析版块的关联分析面板:
1.在前端界面中划分出两个行区域,第一个行区域分割出7列,这7列依次添加基因名称、关联的基因类型、关联的基因名称、癌肿类型、提交、保存图片的类型、图片下载这7个列,在第二个行区域对数据进行分析并展示分析后的结果图片;
2.突变分析版块的突变数据与其它组学数据的关联分析面板的可视化实现:
第(1)步:在第一个行区域的基因名称列中输入一个感兴趣的基因;
第(2)步:在第一个行区域的关联数据类型中以下拉框的方式显示出编码RNA和十余种非编码RNA,蛋白表达,拷贝数,甲基化等多组学数据类型;
第(3)步:当用户在第一个行区域的关联数据类型中选择好感兴趣的关联数据类型后,在关联的基因名称中也输入了一组要分析的关联基因名称,基因间用逗号隔开;
第(4)步:将用户在前端网页中的第一个行区域的关联基因的文本框中输入的一组基因名提取出来,并根据基因名的逗号分割得到一组相关性分析的基因列表;
第(5)步:当用户在第一个行区域的第4列选择了要分析的癌肿名称后,并对第5列的提交按钮进行点击提交后,会在后台读取靶基因对应的突变数据下包含的该癌肿的数据,以及关联基因对应的数据类型下的数据,关联基因的数据类型可以选择很多种组学类型,这样就可以进行突变-信使RNA,突变-突变,突变-长链非编码RNA,突变-小RNA,突变-蛋白表达等其它各种多组学间的相关性分析;
第(5)步:使用for循环对一组关联的基因列表与靶基因进行批量关联差异分析;使用R语言中的ggplot2绘图包中的小提琴图绘制工具绘制该癌肿中关于该靶基因关联基因的组学水平的小提琴图,并在小提琴图的基础上追加绘制散点图,使用该靶基因的突变状态(突变型或野生型)作为分组类别,并使用两样本的威尔科克森秩和检验进行肿突变型组与野生型组间的差异分析,并在图中显示出差异倍数和p值大小;
第(6)步:当所有的分析结果和作图完成后,就将突变数据与其它数据的关联差异分析图在第二个行区域中显示出来,多个相关性分析结果图排列在一张图中;
第(7)步:当用户在第一个行区域的第4列的图片保存类型中选择了要保存为png或pdf格式的图像,并在点击了下载按钮后,就会在后台记住用户要保存的图像格式,并调整好图像的字体大小,排版和600ppi的分辨率,使用shiny中的下载工具将图像下载到用户本地的电脑中;
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种多组学数据整合分析方法,其特征在于,所述分析方法包括以下步骤:
S1、数据下载:从癌症基因组图谱数据库、国际癌症基因组联盟数据库中批量获取每个癌肿所有样本的转录组RNAseq测序数据、微小RNA测序数据、拷贝数变异数据、甲基化数据,RPPA蛋白芯片数据、突变数据以及临床病理信息;
S2、数据的提取和预处理:对癌症基因组图谱数据库和国际癌症基因组联盟数据库下载的文件进行解压,对多组学数据的大文件进行分割,对甲基化数据的甲基化位点进行注释,合并每个癌肿中所有样本的组学数据,将组学数据整合成行为基因编号列为样本编号的数据矩阵,对临床信息文件进行提取和整合,将基因编号转换成正式的基因名称;
S3、临床数据与多组学数据的交互式整合分析:将RNAseq数据、蛋白表达数据、拷贝数数据、甲基化数据、突变数据与临床的生存预后信息和各种临床病理参数进行关联,对单个基因在癌症基因组图谱、国际癌症基因组联盟癌肿的所有癌肿中进行泛癌的组学分析,以及单个基因在单个癌肿中的不同组学水平的差异分析,生存分析,基因在不同临床病理分组的差异分析;对不同的RNA类型间的相关性分析,以及RNA水平与蛋白水平、拷贝数水平、甲基化水平的相关性分析和可视化。
2.根据权利要求1所述的一种多组学数据整合分析方法,其特征在于,所述步骤S1包括:
S1.1、下载国际癌症基因组联盟平台的临床数据和多组学数据,过程如下:
S1.1.1、从国际癌症基因组联盟网站中发现文件下载链接的排列组合规律;
S1.1.2、批量生成国际癌症基因组联盟网站数据文件的下载链接,并批量下载所有的文件;
S1.2、下载癌症基因组图谱的临床数据和多组学数据,过程如下:
S1.2.1、获取癌症基因组图谱中的数据文件的下载名单信息;
S1.2.2、批量下载癌症基因组图谱平台的临床数据和多组学数据。
3.根据权利要求1所述的一种多组学数据整合分析方法,其特征在于,所述步骤S2包括:
S2.1、对国际癌症基因组联盟下载的临床文件和组学文件进行整理解析和预处理,过程如下:
S2.1.1、解压所有的国际癌症基因组联盟平台下载到的数据压缩包;
S2.1.2、对国际癌症基因组联盟平台的临床文件进行整合;
S2.1.3、对国际癌症基因组联盟平台的多组学数据进行分割提取和转换;
S2.2、对癌症基因组图谱下载的临床文件和组学文件进行整理解析和预处理,过程如下:
S2.2.1、解压所有的癌症基因组图谱平台下载到的数据压缩包;
S2.2.2、合并癌症基因组图谱的每个癌肿组学数据包含的所有样本文件;
S2.2.3、将多组学数据矩阵中的文件编号名转换为样本编号名;
S2.2.4、将多组学数据中的基因编号转换成正式的基因名称;
S2.2.5、对癌症基因组图谱的多组学数据中的甲基化位点进行注释;
S2.2.6、提取和整合癌症基因组图谱中的临床病理数据。
4.根据权利要求3所述的一种多组学数据整合分析方法,其特征在于,所述步骤S2.1.3过程如下:
S2.1.3.1、提取国际癌症基因组联盟平台多组学文件数据的重要列;
S2.1.3.2、将体积大的多组学文件按照染色体编号基因分割成23个小文件;
S2.1.3.3、对多组学数据中的甲基化位点进行注释;
S2.1.3.4、将多组学数据转换成表达矩阵的表格格式;
S2.1.3.5、将多组学数据中的基因编号转换成正式的基因名称。
5.根据权利要求1所述的一种多组学数据整合分析方法,其特征在于,所述步骤S3包括:
S3.1、将癌症基因组图谱平台和国际基因组联盟平台的多组学数据按照每个基因进行分割整合;
S3.2、通过癌症基因组图谱和国际基因组联盟平台整合后的数据构建在线交互式综合分析平台,所述在线交互式综合分析平台包括以下六部分:主页版块、RNA数据分析版块、蛋白质数据分析版块、甲基化数据分析版块、拷贝数变异分析版块、突变分析版块,过程如下:
S3.2.1、构建交互式分析平台的主页版块;
S3.2.2、构建交互式分析平台的RNA数据交互式分析板块,通过R语言的shiny前端的界面中添加一个RNA数据交互式分析板块的菜单,RNA数据交互式分析板块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;
S3.2.3、构建交互式分析平台的蛋白质分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个蛋白分析模块的菜单,蛋白分析模块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;
S3.2.4、构建甲基化分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个甲基化分析版块的菜单,甲基化分析版块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、单位点分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;
S3.2.5、构建拷贝数变异分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个拷贝数变异分析模块的菜单,拷贝数变异分析模块的菜单栏下依次添加泛癌分析面板、单癌肿分析面板、生存分析面板、临床病理参数分析面板和相关性分析面板;
S3.2.6、构建突变分析版块和实现分析功能,通过R语言的shiny前端的界面中添加一个突变分析模块的菜单,突变分析模块的菜单栏下依次添加泛癌交互式分析面板、单癌肿分析面板、生存分析面板、突变瀑布图分析面板和关联分析面板。
6.根据权利要求5所述的一种多组学数据整合分析方法,其特征在于,所述步骤S3.2.1、构建交互式分析平台的主页版块,包括:
S3.2.1.1、使用R语言的shiny包在前端界面中添加一个主页菜单,在主页菜单下使用面板函数添加介绍、帮助两个选项卡面板;
S3.2.1.2、构建主页菜单栏下的介绍选项卡,添加平台的介绍信息页面;
S3.2.1.3、构建主页菜单栏下的帮助选项卡,生成平台的帮助信息页面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111549150.4A CN114203259B (zh) | 2021-12-17 | 2021-12-17 | 一种多组学数据整合分析方法和在线交互式综合分析平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111549150.4A CN114203259B (zh) | 2021-12-17 | 2021-12-17 | 一种多组学数据整合分析方法和在线交互式综合分析平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114203259A true CN114203259A (zh) | 2022-03-18 |
CN114203259B CN114203259B (zh) | 2024-05-17 |
Family
ID=80654876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111549150.4A Active CN114203259B (zh) | 2021-12-17 | 2021-12-17 | 一种多组学数据整合分析方法和在线交互式综合分析平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114203259B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116312794A (zh) * | 2023-01-09 | 2023-06-23 | 哈尔滨医科大学 | 一种融合单细胞分析方法的甲基化样本聚类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130184999A1 (en) * | 2012-01-05 | 2013-07-18 | Yan Ding | Systems and methods for cancer-specific drug targets and biomarkers discovery |
US20180299463A1 (en) * | 2016-11-07 | 2018-10-18 | Battelle Memorial Institute | Methods and systems of proteome analysis and imaging |
WO2019168426A1 (ru) * | 2018-03-01 | 2019-09-06 | Общество С Ограниченной Ответственностью "Онкобокс" | Способ и система для оценки клинической эффективности таргетных лекарственных средств |
WO2020077352A1 (en) * | 2018-10-12 | 2020-04-16 | Human Longevity, Inc. | Multi-omic search engine for integrative analysis of cancer genomic and clinical data |
CN113140259A (zh) * | 2021-05-17 | 2021-07-20 | 上海交通大学 | 一种基于云存储的生物医学数据分类管理控制方法和系统 |
US20210322405A1 (en) * | 2020-04-15 | 2021-10-21 | Washington University | Compositions and methods for treating cancer |
-
2021
- 2021-12-17 CN CN202111549150.4A patent/CN114203259B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130184999A1 (en) * | 2012-01-05 | 2013-07-18 | Yan Ding | Systems and methods for cancer-specific drug targets and biomarkers discovery |
US20180299463A1 (en) * | 2016-11-07 | 2018-10-18 | Battelle Memorial Institute | Methods and systems of proteome analysis and imaging |
WO2019168426A1 (ru) * | 2018-03-01 | 2019-09-06 | Общество С Ограниченной Ответственностью "Онкобокс" | Способ и система для оценки клинической эффективности таргетных лекарственных средств |
WO2020077352A1 (en) * | 2018-10-12 | 2020-04-16 | Human Longevity, Inc. | Multi-omic search engine for integrative analysis of cancer genomic and clinical data |
US20210322405A1 (en) * | 2020-04-15 | 2021-10-21 | Washington University | Compositions and methods for treating cancer |
CN113140259A (zh) * | 2021-05-17 | 2021-07-20 | 上海交通大学 | 一种基于云存储的生物医学数据分类管理控制方法和系统 |
Non-Patent Citations (3)
Title |
---|
GUANGYAN ZHOU ET LA.: "OmicsAnalyst: a comprehensive web-based platform for visual analytics of multi-omics data", 《NUCLEIC ACIDS RESEARCH》, vol. 49, no. 1, 2 July 2021 (2021-07-02), pages 476 * |
熊辉;何振峰;: "基于R平台的体检数据分析研究", 福建电脑, no. 11, 25 November 2017 (2017-11-25), pages 73 - 75 * |
邢自豪: "多组学整合分析CABLES1在肿瘤中的作用", 《中国优秀硕士学位论文全文数据库(电子期刊)医药卫生科技辑》, 15 February 2021 (2021-02-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116312794A (zh) * | 2023-01-09 | 2023-06-23 | 哈尔滨医科大学 | 一种融合单细胞分析方法的甲基化样本聚类方法 |
CN116312794B (zh) * | 2023-01-09 | 2023-11-14 | 哈尔滨医科大学 | 一种融合单细胞分析方法的甲基化样本聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114203259B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hossain et al. | Visualization of Bioinformatics Data with Dash Bio. | |
US11756652B2 (en) | Systems and methods for analyzing sequence data | |
Barrett et al. | Mining microarray data at NCBI’s Gene Expression Omnibus (GEO) | |
Seo et al. | Interactively exploring hierarchical clustering results [gene identification] | |
JP2022541199A (ja) | データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 | |
Ohtsubo et al. | GenomeMatcher: a graphical user interface for DNA sequence comparison | |
Kincaid et al. | Line graph explorer: scalable display of line graphs using focus+ context | |
US20020067358A1 (en) | Data analysis software | |
WO2003067471A1 (fr) | Appareil et procede permettant de traiter des connaissances dans des documents | |
CN110570905A (zh) | 组学数据分析平台的构建方法、装置和计算机设备 | |
CN103810229A (zh) | 用于实施字符串搜索的系统、方法和计算机程序产品 | |
EP1367508A1 (en) | System and methods for extracting pre-existing data from multiple formats | |
Gondro et al. | Quality control for genome-wide association studies | |
CN114203259A (zh) | 一种多组学数据整合分析方法和在线交互式综合分析平台 | |
Reiser et al. | Using the Arabidopsis Information Resource (TAIR) to find information about Arabidopsis genes | |
Pielawski et al. | TissUUmaps 3: interactive visualization and quality assessment of large-scale spatial omics data | |
Schulz et al. | Detecting high-scoring local alignments in pangenome graphs | |
Kaushal et al. | Analyzing and visualizing expression data with Spotfire | |
CN114207598A (zh) | 电子表单表转换 | |
Rasmussen et al. | w CLUTO: A Web-Enabled Clustering Toolkit | |
Dahlquist | Using Gen MAPP and MAPPFinder to View Microarray Data on Biological Pathways and Identify Global Trends in the Data | |
CN111276190B (zh) | 一种基于生物云平台的动态交互富集分析方法及系统 | |
Rustici et al. | Data storage and analysis in ArrayExpress and Expression Profiler | |
Fang et al. | iMap: a database-driven utility to integrate and access the genetic and physical maps of maize | |
Trumbly | Accessing genomic databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |