CN106778066A - 一种非小细胞肺癌相关癌基因筛选与功能分析方法 - Google Patents
一种非小细胞肺癌相关癌基因筛选与功能分析方法 Download PDFInfo
- Publication number
- CN106778066A CN106778066A CN201710018625.4A CN201710018625A CN106778066A CN 106778066 A CN106778066 A CN 106778066A CN 201710018625 A CN201710018625 A CN 201710018625A CN 106778066 A CN106778066 A CN 106778066A
- Authority
- CN
- China
- Prior art keywords
- genes
- gene
- analysis
- screening
- mrna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000002154 non-small cell lung carcinoma Diseases 0.000 title claims abstract description 46
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 title claims abstract description 39
- 108700020796 Oncogene Proteins 0.000 title claims abstract description 12
- 238000010230 functional analysis Methods 0.000 title claims abstract description 11
- 238000012106 screening analysis Methods 0.000 title claims abstract description 7
- 238000013459 approach Methods 0.000 title claims description 4
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 110
- 238000011160 research Methods 0.000 claims abstract description 33
- 230000014509 gene expression Effects 0.000 claims abstract description 32
- 108020004999 messenger RNA Proteins 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 13
- 230000001105 regulatory effect Effects 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 24
- 230000004879 molecular function Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 102000005593 Endopeptidases Human genes 0.000 claims description 7
- 108010059378 Endopeptidases Proteins 0.000 claims description 7
- 238000010201 enrichment analysis Methods 0.000 claims description 6
- 241000894007 species Species 0.000 claims description 6
- 241000282414 Homo sapiens Species 0.000 claims description 5
- 230000009456 molecular mechanism Effects 0.000 claims description 5
- 102000004169 proteins and genes Human genes 0.000 claims description 5
- 102000003728 Peroxisome Proliferator-Activated Receptors Human genes 0.000 claims description 4
- 108090000029 Peroxisome Proliferator-Activated Receptors Proteins 0.000 claims description 4
- 230000009102 absorption Effects 0.000 claims description 4
- 238000010521 absorption reaction Methods 0.000 claims description 4
- 230000033115 angiogenesis Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 210000004072 lung Anatomy 0.000 claims description 4
- 238000003068 pathway analysis Methods 0.000 claims description 4
- 210000004027 cell Anatomy 0.000 claims description 3
- 230000017854 proteolysis Effects 0.000 claims description 3
- 102000005962 receptors Human genes 0.000 claims description 3
- 108020003175 receptors Proteins 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 206010021143 Hypoxia Diseases 0.000 claims description 2
- 230000008236 biological pathway Effects 0.000 claims description 2
- 230000007954 hypoxia Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000004186 co-expression Effects 0.000 claims 2
- 238000007689 inspection Methods 0.000 claims 2
- 101150008989 55 gene Proteins 0.000 claims 1
- 101150076076 64 gene Proteins 0.000 claims 1
- 108010001857 Cell Surface Receptors Proteins 0.000 claims 1
- 230000025164 anoikis Effects 0.000 claims 1
- 238000007622 bioinformatic analysis Methods 0.000 claims 1
- 239000008280 blood Substances 0.000 claims 1
- 210000004369 blood Anatomy 0.000 claims 1
- 230000007691 collagen metabolic process Effects 0.000 claims 1
- 239000013068 control sample Substances 0.000 claims 1
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 235000019621 digestibility Nutrition 0.000 claims 1
- 230000012202 endocytosis Effects 0.000 claims 1
- 230000002068 genetic effect Effects 0.000 claims 1
- 102000006240 membrane receptors Human genes 0.000 claims 1
- 238000011017 operating method Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 14
- 238000003766 bioinformatics method Methods 0.000 abstract description 9
- 102000043276 Oncogene Human genes 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000002493 microarray Methods 0.000 abstract description 5
- 230000004784 molecular pathogenesis Effects 0.000 abstract description 2
- 239000000439 tumor marker Substances 0.000 abstract 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 15
- 201000005202 lung cancer Diseases 0.000 description 15
- 208000020816 lung neoplasm Diseases 0.000 description 15
- 210000001519 tissue Anatomy 0.000 description 9
- 230000031018 biological processes and functions Effects 0.000 description 8
- 206010028980 Neoplasm Diseases 0.000 description 5
- 210000003850 cellular structure Anatomy 0.000 description 5
- 230000037361 pathway Effects 0.000 description 5
- 230000011382 collagen catabolic process Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000033300 receptor internalization Effects 0.000 description 4
- 230000019491 signal transduction Effects 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 3
- 238000013399 early diagnosis Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000004060 metabolic process Effects 0.000 description 3
- 230000013777 protein digestion Effects 0.000 description 3
- 238000000551 statistical hypothesis test Methods 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- INZOTETZQBPBCE-NYLDSJSYSA-N 3-sialyl lewis Chemical compound O[C@H]1[C@H](O)[C@H](O)[C@H](C)O[C@H]1O[C@H]([C@H](O)CO)[C@@H]([C@@H](NC(C)=O)C=O)O[C@H]1[C@H](O)[C@@H](O[C@]2(O[C@H]([C@H](NC(C)=O)[C@@H](O)C2)[C@H](O)[C@H](O)CO)C(O)=O)[C@@H](O)[C@@H](CO)O1 INZOTETZQBPBCE-NYLDSJSYSA-N 0.000 description 2
- 102000012406 Carcinoembryonic Antigen Human genes 0.000 description 2
- 108010022366 Carcinoembryonic Antigen Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 101000623901 Homo sapiens Mucin-16 Proteins 0.000 description 2
- 102100023123 Mucin-16 Human genes 0.000 description 2
- 102000048850 Neoplasm Genes Human genes 0.000 description 2
- 108700019961 Neoplasm Genes Proteins 0.000 description 2
- 206010047139 Vasoconstriction Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000024856 cell surface receptor signaling pathway Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000021525 negative regulation of anoikis Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000025033 vasoconstriction Effects 0.000 description 2
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 102000004157 Hydrolases Human genes 0.000 description 1
- 108090000604 Hydrolases Proteins 0.000 description 1
- 108090000301 Membrane transport proteins Proteins 0.000 description 1
- 102000003939 Membrane transport proteins Human genes 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000002288 golgi apparatus Anatomy 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 201000005249 lung adenocarcinoma Diseases 0.000 description 1
- 201000005243 lung squamous cell carcinoma Diseases 0.000 description 1
- 238000010819 mRNA expression detection Methods 0.000 description 1
- 238000009607 mammography Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009061 membrane transport Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000020874 response to hypoxia Effects 0.000 description 1
- 108010038196 saccharide-binding proteins Proteins 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000004895 subcellular structure Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 108091035539 telomere Proteins 0.000 description 1
- 102000055501 telomere Human genes 0.000 description 1
- 210000003411 telomere Anatomy 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种非小细胞肺癌相关癌基因筛选与功能分析方法,该方法包括以下步骤:从GEO数据库http://www.ncbi.nlm.nih.gov/geo/中寻找NSCLC相关的mRNA表达芯片结果,利用GEO2R数据库获得mRNA表达结果;利用Venn图寻找两个研究中结果相同mRNA基因表达结果;利用生物信息学技术进行基因富集功能分析。本发明利用多种在线数据库下载mRNA表达差异基因,寻找在不同研究系列中共同表达差异的基因,以及对共同表达差异基因进行生物信息学分析,为NSCLC的肿瘤标志物筛选、分子发病机制等提供有意义的探索和依据。
Description
技术领域
本发明属于生物技术领域,涉及一种非小细胞肺癌相关癌基因筛选与功能分析方法,具体地说,涉及一种基于大数据的非小细胞肺癌相关癌基因筛选与功能分析方法。
背景技术
肺癌是中国,以及全球发病率及死亡率第一的恶性肿瘤。在过去的40年间,肺癌的5年生存率仅从12%上升至16%,最主要原因是诊断时已属晚期,相反,早期诊断的肺癌进行手术后生存率可提高到80%。可见,早发现、早期诊断对肺癌的治疗及预后具有重要的临床意义。当前广泛运用的检测手段包括无创检查(如X线、CT、钼靶摄片等)和有创检查(纤维支气管镜、支气管造影、B超或CT定位下穿刺活检等),但缺乏依从性和普及运用的可能。找寻新的肺癌分子标志物,尤其是血清分子标志物,让肺癌患者能够及时有效的早查、早诊、早治,是提高肺癌患者生存率、降低死亡率的关键科学问题。
尽管目前有一些肿瘤标志物,如CA125(癌抗原125)、CA19-9(癌抗原19-9)、CEA(癌胚抗原)等可用于肺癌的检测,但敏感性和特异性均不高,所以目前为止,尚没有理想的可供临床使用的肺癌早期筛查和诊断标志物。不断地发现和鉴定新的肺癌相关癌基因/蛋白仍是一项重要的工作。基因的异常表达研究是进行肺癌早期诊断的一个重要环节。近年来,随着微阵列芯片技术尤其是基因芯片技术的广泛使用,产生了海量的数据,为基因研究提供了高通量的数据资料。基因芯片技术在肺癌发生机制研究中得到了广泛的应用,并为肺癌的早期诊断提供了有效的技术支持。然而另一方面,基因芯片获得的大量数据信息并未能得到充分利用,其中蕴含了大量未知的生物信息,并阻碍了疾病发生分子机制的研究进程。目前,基因芯片数据挖掘问题已引起国内外研究者的广泛关注,如何对这些数据进行有效挖掘已成为生物信息学研究中亟待解决的问题。
基因表达数据库(Gene Expression Omnibus,GEO)是当今最大、最全面的公共基因表达数据资源,包括高通量实验数据的广泛分类,有单通道和双通道以微阵列为基础的对mRNA丰度的测定;基因组DNA和蛋白质分子的实验数据。迄今为止,GEO数据库包含的数据含概10 000个杂交实验和来自30种不同生物体。数据库操作简单,数据全面,免费共享,并为后期数据挖掘和信息推广提供了良好的平台。GEO数据库在分子生物学领域中有着广泛的应用前景,为肿瘤相关基因的挖掘与筛选提供了最佳平台。
非小细胞肺癌(non-small cell lung cancer,LSCLC)是肺癌的主要病理类型,本发明通过对GEO数据库中NSCLC的数据进行收集,利用生物信息学的方法对收集到的在NSCLC表达异常(上调或下调)的mRNA高通量转录组数据进行整合分析,从而对NSCLC的发病机理进行探究,并为其诊断与治疗提供一定的研究基础。
发明内容
本发明的目的在于提供一种非小细胞肺癌相关癌基因筛选与功能分析方法,通过对现有数据库中所有涉及非小细胞肺癌的数据进行收集,利用生物信息学方法对收集到非小细胞肺癌的mRNA转录组数据进行差异表达分析,基于大样本大数据处理得到适用于临床应用的非小细胞肺癌诊断标志物,包括研究系列的筛选,利用GEO2R在线工具下载mRNA表达差异基因,寻找在不同研究系列中共同表达差异的基因,以及对共同表达差异基因进行生物信息学分析,为NSCLC的肿瘤标志物筛选、分子发病机制等提供有意义的探索和依据。
其具体技术方案为:
一种非小细胞肺癌相关癌基因筛选与功能分析方法,包括以下步骤:
1)利用GEO数据库筛选符合条件的研究系列:从GEO数据库http://www.ncbi.nlm.nih.gov/geo/中寻找NSCLC相关的mRNA表达芯片结果,经筛选,两个研究系列纳入研究:GSE44077和GSE43458。两个研究均为GPL6244平台,共纳入NSCLC标本135例和正常对照标本96例;
2)利用GEO2R数据库获得mRNA表达结果:从GEO2R数据库https://www.ncbi.nlm.nih.gov/geo/geo2r/下载GSE44077和GSE43458两个研究系列中mRNA在NSCLC癌组织和正常肺组织差异表达的数据结果;
3)利用Venn图寻找两个研究中结果相同的mRNA基因表达结果:选择两个研究系列中mRNA表达上调或下调超过4倍的基因,其中GSE44077中表达上调4倍以上的有81个基因,下调4倍以上的有24个基因;GSE43458中表达上调4倍以上的有74个基因,下调4倍以上的有13个基因,利用在线Venn图制作工具http://bioinformatics.psb.ugent.be/webtools/Venn/,生成Venn图,两个研究中共同表达上调的有55个基因,共同表达下调的有11个基因;
4)利用生物信息学技术进行基因富集功能分析:利用DAVIDhttps://david.ncifcrf.gov/tools.jsp在线软件对差异表达基因进行生物信息学分析,为NSCLC标志物筛选及分子机制研究提供依据。
操作步骤如下:
提交基因列表并设置参数:进入DAVID网站分析界面(https://david.ncifcrf.gov/tools.jsp),在“upload”下的“step1:Enter Gene List”下面的方框内,将需要分析的66个基因名称粘贴进去,在“step 2:Select Identifier”下选择”Official_Gene_Symbol”,“Step 3:List Type”选择“Gene List”,然后点击“Step 4:submit list”。
在“Background”下“Population Manager--Select a background”中选择“Homosapiens”,点击“use”。
在“List”下“Gene List Manager--Select to limit annotations by one ormore species”中选择“Home sapiens”,点击“Select Species”。即出现结果概要,结果显示64个基因进入功能富集分析模块。功能注释结果(Annotation Summary Results)中包括本研究所需要的Gene_Ontology(GO)和Pathway分析结果。
进一步,步骤4中基因本体论GO包括了三级结构的标准语言,主要包括分子功能(molecular function,MF)、生物学途径(biological process,BP)和细胞学组件(cellcomponent,CC)。在GO模块下,选择默认参数设置:“count:2”,“EASE:0.1”,统计学显著性检验p值<0.05有意义,结果显示,差异表达的基因主要涉及受体内吞(receptorinternalization),血管生成(angiogenesis),蛋白水解过程(proteolysis),失巢凋亡的负调节(negative regulation of anoikis),血管收缩(vasoconstriction),细胞表面受体信号通路(cell surface receptor signaling pathway),缺氧反应(response tohypoxia),胶原分解代谢过程(collagen catabolic process)等,分子功能表明,差异表达的基因主要涉及受体活性(receptor activity),丝氨酸型内肽酶活性(serine-typeendopeptidase activity)和内肽酶活性(endopeptidase activity)等。
KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究。通过DAVID对KEGG分析发现,这些差异表达基因主要参与PPAR信号通路(PPAR signaling pathway),ECM-受体相互作用(ECM-receptor interaction),蛋白质消化和吸收通路(Proteindigestion and absorption)。
与现有技术相比,本发明的有益效果为:
本发明利用GEO数据库中NSCLC癌组织和正常肺组织的芯片数据进行分析,挖掘并筛选NSCLC相关癌基因,并进行生物信息学分析。希望能从对NSCLC的生物学性质,以及NSCLC发生、发展过程中基本的分子机制的研究得到深刻认识,为NSCLC的诊断提供检测标志物及新的治疗点,也为疾病的预防和治疗等提供可靠的科学依据。
附图说明
图1是利用GEO数据库筛选非小细胞肺癌相关癌基因及生物信息学分析流程图;
图2是GSE44077研究数据集的详细信息;
图3是GSE43458研究数据集的详细信息;
图4是GSE44077在GEO2R在线工具中的分析示意图;
图5是GSE43458在GEO2R在线工具中的分析示意图;
图6是利用Venn图筛选两个系列集中mRNA共同上调或下调4倍以上的基因示意图;
图7是DAVID在线数据库分析界面示意图;
图8是DAVID在线数据库功能富集分析结果示意图。
具体实施方式
下面结合具体实施例对本发明的技术方案作进一步详细地说明。
一种利用GEO数据库筛选非小细胞肺癌(NSCLC)相关癌基因并进行生物信息学分析的方法(图1),包括以下步骤:
1.利用大数据库筛选NSCLC相关癌基因:
1)利用GEO数据库筛选符合条件的研究系列:从GEO数据库(http://www.ncbi.nlm.nih.gov/geo/)中寻找非小细胞肺癌相关的mRNA表达芯片结果,搜索条件限定为:(1)非小细胞肺癌(NSCLC);(2)必须有正常对照(normal);(3)芯片系列为mRNA表达检测;(4)标本来源为组织(tissue);(5)样本含量大于100例。经筛选,两个研究系列纳入研究:GSE44077和GSE43458。图2和图3为两个研究在GEO数据库的详细信息。两个研究均为GPL6244平台,共纳入NSCLC标本135例和正常对照标本96例,具体信息见表1。
表1.两个高通量mRNA研究系列的基本情况
2)利用GEO2R在线工具获得mRNA表达结果:GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)是一种在线分析GEO内数据的系统。这个工具系统采用R语言来运行,包括GEOquery和limma这两个R包,前者用于数据的读取,后者用于计算。进入GEO2R网站后,分别调出GSE44077和GSE43458两个研究系列的研究对象,选择肺腺癌和肺鳞癌为NSCLC组,正常肺组织为对照组(normal)(图4和图5),分别下载两个研究系列中mRNA在肺癌组织和正常组织差异表达的数据结果,包括基因名称,表达差异倍数(fold change,FC)的log2值(log2(FC)),p值,调整后的p值等。结果显示,GSE44077研究中表达mRNA上调(FC>2)的基因有645个,表达下调2倍以上的基因408个,GSE43458研究中表达上调2倍以上的基因648个,表达下调2倍以上的基因247个。
3)利用Venn图寻找两个研究中结果相同mRNA基因表达结果:为了更加有效的探讨NSCLC相关癌基因,本发明选择两个研究系列中mRNA表达上调或下调超过4倍的基因(即log2(FC)大于2或小于-2)的基因进行进一步的分析。其中GSE44077中表达上调4倍以上的有81个基因,下调4倍以上的有24个基因;GSE43458中表达上调4倍以上的有74个基因,下调4倍以上的有13个基因。将这些基因分别录入在线Venn图制作工具(http://bioinformatics.psb.ugent.be/webtools/Venn/)中,提交后生成Venn图,并显示两个研究系列结果相同与不同的基因名称(见图6)。结果显示,两个研究中共同表达上调的有55个基因(表2),共同表达下调的有11个基因(表3)。
表2.两个研究系列中mRNA显著上调(4倍以上)的55个基因
表3.两个研究中mRNA显著下调(4倍以上)的11个基因
2.利用生物信息学技术进行基因富集功能分析
应用生物信息学方法分析生物数据,提出与疾病发生、发展相关的基因或基因集,再进行实验验证,是一条高效的研究途径。本发明以GEO数据库中关于NSCLC的基因表达谱为分析材料,利用GEO2R和Venn图在线分析工具筛选出差异表达基因,再利用DAVID在线分析网络平台对差异表达基因进行生物信息学分析,为NSCLC标志物筛选及分子机制研究提供依据。
DAVID生物信息数据库(the Database for Annotation,Visualization andIntegrated Discovery),是一个基于web的一种基因功能富集分析软件,整合了生物学数据以功能注释和信息链接为特点覆盖广泛的分析工具,使用者只需要提供一份基因列表,便可以应用提供的分析内容和分析工具,实现各项功能注释分析和整合,从统计学层面关联到最显著富集的生物学注释。分析的结果可以与其他的数据库链接。使用在线分析软件对选出的差异表达基因的KEGG通路、本体论的细胞成分、分子功能、生物过程进行分类、定义和注释。
操作步骤如下:
1)提交基因列表并设置参数:进入DAVID网站分析界面(https://david.ncifcrf.gov/tools.jsp),在“upload”下的“step1:Enter Gene List”下面的方框内,将需要分析的66个基因名称粘贴进去,在“step 2:Select Identifier”下选择”Official_Gene_Symbol”,“Step 3:List Type”选择“Gene List”,然后点击“Step 4:submit list”(图7)。
2)在“Background”下“Population Manager--Select a background”中选择“Homo sapiens”,点击“use”。
3)在“List”下“Gene List Manager--Select to limit annotations by one ormore species”中选择“Home sapiens”,点击“Select Species”。即出现结果概要,结果显示64个基因进入功能富集分析模块(图8)。功能注释结果(Annotation Summary Results)中包括本研究所需要的Gene_Ontology和Pathway分析结果。
4)GO功能注释:基因本体论(Gene Ontology,简称GO)数据库是由基因本体论联合会所建立,该数据库可以对基因和蛋白功能进行描述和限定,GO包括了三级结构的标准语言,主要包括如下:
分子功能(molecular function,MF):它包括基因产物的功能,如与碳水化合物结合或ATP水解酶活性等;生物学途径(biological process,BP):它是分子功能的组合,可获得更广的生物功能,如嘿岭代谢或分子代谢。细胞学组件(cell component,CC):包括了亚细胞结构、位置和大分子复合物,如高尔基体、端粒和识别起始的复合物等。
本发明中获得的是一组基因,对它们进行直接的功能注释,得到的功能节点数量庞大,且互相交叠,该将导致分析结果冗余。因此,我们选择对数据进行功能富集分析。该方法可有效增加研究的可靠性,并对生物现象中相关的生物学过程作出有效识别,更有利于获得有意义的功能信息。本发明选择应用DAVID在线软件对66个在NSCLC和正常组织的上调或下调的差异表达基因进行了GO功能富集分析。结果显示59个基因参与了生物过程(BP),61个基因参与了细胞组成(CC),55个基因参与了分子功能(MF)。选择默认参数设置:“count:2”,“EASE:0.1”,统计学显著性检验p值<0.05有意义,结果显示,差异表达的基因主要涉及受体内吞(receptor internalization),血管生成(angiogenesis),蛋白水解过程(proteolysis),失巢凋亡的负调节(negative regulation of anoikis),血管收缩(vasoconstriction),细胞表面受体信号通路(cell surface receptor signalingpathway),缺氧反应(response to hypoxia),胶原分解代谢过程(collagen catabolicprocess)等。分子功能表明,差异表达的基因主要涉及受体活性(receptor activity),丝氨酸型内肽酶活性(serine-type endopeptidase activity)和内肽酶活性(endopeptidase activity)等(表4)。
5)KEGG通路分析:KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。通过DAVID对64个基因进行KEGG分析发现,30个基因参与了各种通路功能,选择默认参数设置:“count:2”,“EASE:0.1”,统计学显著性检验p值<0.05有意义,结果显示,这些差异表达基因主要参与PPAR信号通路(PPAR signaling pathway),ECM-受体相互作用(ECM-receptor interaction),蛋白质消化和吸收通路(Protein digestionand absorption)(表5)。
表4.表达差异基因显著富集的GO功能
表5.差异表达基因显著富集的KEGG信号通路
以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。
Claims (2)
1.一种非小细胞肺癌相关癌基因筛选与功能分析方法,其特征在于,包括以下步骤:
1)利用GEO数据库筛选符合条件的研究系列:从GEO数据库http://www.ncbi.nlm.nih.gov/geo/中寻找NSCLC相关的mRNA表达芯片结果,经筛选,两个研究系列纳入研究:GSE44077和GSE43458;两个研究均为GPL6244平台,共纳入NSCLC标本135例和正常对照标本96例;
2)利用GEO2R数据库获得mRNA表达结果:从GEO2R数据库https://www.ncbi.nlm.nih.gov/geo/geo2r/下载GSE44077和GSE43458两个研究系列中mRNA在NSCLC癌组织和正常肺组织差异表达的数据结果;
3)利用Venn图寻找两个研究中结果相同mRNA基因表达结果:选择两个研究系列中mRNA表达上调或下调超过4倍的基因,其中GSE44077中表达上调4倍以上的有81个基因,下调4倍以上的有24个基因;GSE43458中表达上调4倍以上的有74个基因,下调4倍以上的有13个基因,利用在线Venn图制作工具http://bioinformatics.psb.ugent.be/webtools/Venn/,生成Venn图,两个研究中共同表达上调的有55个基因,共同表达下调的有11个基因;
4)利用生物信息学技术进行基因富集功能分析:利用DAVID在线软件对差异表达基因进行生物信息学分析,为NSCLC标志物筛选及分子机制研究提供依据,;
操作步骤如下:
提交基因列表并设置参数:进入DAVID网站分析界面https://david.ncifcrf.gov/tools.jsp,在“upload”下的“step1:Enter Gene List”下面的方框内,将需要分析的66个基因名称粘贴进去,在“step 2:Select Identifier”下选择”Official_Gene_Symbol”,“Step 3:List Type”选择“Gene List”,然后点击“Step 4:submit list”;
在“Background”下“Population Manager--Select a background”中选择“Homosapiens”,点击“use”;
在“List”下“Gene List Manager--Select to limit annotations by one or morespecies”中选择“Home sapiens”,点击“Select Species”;即出现结果概要,结果显示64个基因进入功能富集分析模块,功能注释结果中包括本研究所需要的Gene_Ontology和Pathway分析结果。
2.根据权利要求1所述的非小细胞肺癌相关癌基因筛选与功能分析方法,其特征在于,步骤4中基因本体论包括了三级结构的标准语言,主要包括分子功能、生物学途径和细胞学组件;选择应用DAVID在线软件对66个在NSCLC和正常组织的上调或下调的差异表达基因进行了GO功能富集分析;结果显示59个基因参与了生物过程,61个基因参与了细胞组成,55个基因参与了分子功能;
选择默认参数设置:“count:2”,“EASE:0.1”,统计学显著性检验p值<0.05有意义,结果显示,差异表达的基因主要涉及受体内吞,血管生成,蛋白水解过程,失巢凋亡的负调节,血管收缩,细胞表面受体信号通路,缺氧反应,胶原分解代谢过程,分子功能表明,差异表达的基因主要涉及受体活性,丝氨酸型内肽酶活性和内肽酶活性;
通过KEGG分析发现,30个基因参与了各种通路功能,选择默认参数设置:“count:2”,“EASE:0.1”,统计学显著性检验p值<0.05有意义,这些差异表达基因主要参与PPAR信号通路,ECM-受体相互作用,蛋白质消化和吸收通路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710018625.4A CN106778066B (zh) | 2017-01-10 | 2017-01-10 | 一种非小细胞肺癌相关癌基因筛选与功能分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710018625.4A CN106778066B (zh) | 2017-01-10 | 2017-01-10 | 一种非小细胞肺癌相关癌基因筛选与功能分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106778066A true CN106778066A (zh) | 2017-05-31 |
CN106778066B CN106778066B (zh) | 2019-02-15 |
Family
ID=58949228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710018625.4A Active CN106778066B (zh) | 2017-01-10 | 2017-01-10 | 一种非小细胞肺癌相关癌基因筛选与功能分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778066B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584955A (zh) * | 2018-11-27 | 2019-04-05 | 大连海事大学 | 一种基于多种植物基因组识别人类辐射响应生物标志物的方法 |
CN109584968A (zh) * | 2018-11-27 | 2019-04-05 | 大连海事大学 | 一种用于筛选参与生物学过程调控新基因的方法 |
CN109841280A (zh) * | 2017-11-29 | 2019-06-04 | 郑州大学第一附属医院 | 食管癌相关特征通路的识别及早期诊断模型的构建方法 |
CN110218792A (zh) * | 2019-05-31 | 2019-09-10 | 江苏省肿瘤医院 | 一种用于乳腺癌诊断及预后的标志物以及其获得方法 |
CN111020012A (zh) * | 2019-12-30 | 2020-04-17 | 吉林大学 | 一种基因筛选及生物信息学分析的方法 |
CN112143814A (zh) * | 2020-11-04 | 2020-12-29 | 上海思路迪生物医学科技有限公司 | 一种用于肺癌早期诊断的外泌体ecDNA生物标志物检测试剂及其用途 |
CN113345592A (zh) * | 2021-06-18 | 2021-09-03 | 山东第一医科大学附属省立医院(山东省立医院) | 一种急性髓细胞样白血病预后风险模型的构建及诊断设备 |
CN113593700A (zh) * | 2021-08-06 | 2021-11-02 | 江苏师范大学 | 分析肺癌进展的方法、装置、设备、介质及程序产品 |
CN114333979A (zh) * | 2020-09-30 | 2022-04-12 | 北京瑷格干细胞科技有限公司 | 一种骨关节炎相关基因筛选与功能分析方法 |
CN114360642A (zh) * | 2022-01-14 | 2022-04-15 | 吉林省蒲川生物医药有限公司 | 基于基因共表达网络分析的癌症转录组数据处理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732116A (zh) * | 2015-03-13 | 2015-06-24 | 西安交通大学 | 一种基于生物网络的癌症驱动基因的筛选方法 |
CN105821119A (zh) * | 2016-01-29 | 2016-08-03 | 苏州大学附属儿童医院 | 一种辅助诊断川崎病的核酸标记物及试剂盒 |
-
2017
- 2017-01-10 CN CN201710018625.4A patent/CN106778066B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732116A (zh) * | 2015-03-13 | 2015-06-24 | 西安交通大学 | 一种基于生物网络的癌症驱动基因的筛选方法 |
CN105821119A (zh) * | 2016-01-29 | 2016-08-03 | 苏州大学附属儿童医院 | 一种辅助诊断川崎病的核酸标记物及试剂盒 |
Non-Patent Citations (3)
Title |
---|
CSDN博客: "Using DAVID for Go and pathway enrichment anlysis", 《HTTP://BLOG.CSDN.NET/XXXXY314/ARTICLE/DETAILS/48929739》 * |
YING LIU ET AL.: "Identification of feature genes for smoking-related lung adenocarcinoma based on gene expression profile data", 《ONCOTARGETS AND THERAPY》 * |
蒋燕明等: "宫颈上皮内瘤变进展相关基因的生物信息学分析", 《中国肿瘤临床》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109841280A (zh) * | 2017-11-29 | 2019-06-04 | 郑州大学第一附属医院 | 食管癌相关特征通路的识别及早期诊断模型的构建方法 |
CN109584968B (zh) * | 2018-11-27 | 2022-09-23 | 大连海事大学 | 一种用于筛选参与生物学过程调控新基因的方法 |
CN109584968A (zh) * | 2018-11-27 | 2019-04-05 | 大连海事大学 | 一种用于筛选参与生物学过程调控新基因的方法 |
CN109584955A (zh) * | 2018-11-27 | 2019-04-05 | 大连海事大学 | 一种基于多种植物基因组识别人类辐射响应生物标志物的方法 |
CN109584955B (zh) * | 2018-11-27 | 2022-09-23 | 大连海事大学 | 一种基于多种植物基因组识别人类辐射响应生物标志物的方法 |
CN110218792A (zh) * | 2019-05-31 | 2019-09-10 | 江苏省肿瘤医院 | 一种用于乳腺癌诊断及预后的标志物以及其获得方法 |
CN111020012A (zh) * | 2019-12-30 | 2020-04-17 | 吉林大学 | 一种基因筛选及生物信息学分析的方法 |
CN114333979A (zh) * | 2020-09-30 | 2022-04-12 | 北京瑷格干细胞科技有限公司 | 一种骨关节炎相关基因筛选与功能分析方法 |
CN112143814A (zh) * | 2020-11-04 | 2020-12-29 | 上海思路迪生物医学科技有限公司 | 一种用于肺癌早期诊断的外泌体ecDNA生物标志物检测试剂及其用途 |
CN113345592A (zh) * | 2021-06-18 | 2021-09-03 | 山东第一医科大学附属省立医院(山东省立医院) | 一种急性髓细胞样白血病预后风险模型的构建及诊断设备 |
CN113345592B (zh) * | 2021-06-18 | 2022-08-23 | 山东第一医科大学附属省立医院(山东省立医院) | 一种急性髓细胞样白血病预后风险模型的构建及诊断设备 |
CN113593700A (zh) * | 2021-08-06 | 2021-11-02 | 江苏师范大学 | 分析肺癌进展的方法、装置、设备、介质及程序产品 |
CN113593700B (zh) * | 2021-08-06 | 2024-02-27 | 江苏师范大学 | 分析肺癌进展的方法、装置、设备、介质及程序产品 |
CN114360642A (zh) * | 2022-01-14 | 2022-04-15 | 吉林省蒲川生物医药有限公司 | 基于基因共表达网络分析的癌症转录组数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106778066B (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778066A (zh) | 一种非小细胞肺癌相关癌基因筛选与功能分析方法 | |
He et al. | TOOme: a novel computational framework to infer cancer tissue-of-origin by integrating both gene mutation and expression | |
Pös et al. | Copy number variation: methods and clinical applications | |
WO2021022225A1 (en) | Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay | |
Yan et al. | A novel seven‐lncRNA signature for prognosis prediction in hepatocellular carcinoma | |
CN109478231A (zh) | 帮助区别良性和恶性放射线照相明显肺结节的方法和组合物 | |
CN111128299A (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
Wen et al. | Circulating tumor DNA—a novel biomarker of tumor progression and its favorable detection techniques | |
Suttorp et al. | Optical genome mapping as a diagnostic tool in pediatric acute myeloid leukemia | |
WO2021258026A1 (en) | Molecular response and progression detection from circulating cell free dna | |
Hall et al. | Exon-array profiling unlocks clinically and biologically relevant gene signatures from formalin-fixed paraffin-embedded tumour samples | |
Guo et al. | Artificial intelligence: opportunities and challenges in the clinical applications of triple-negative breast cancer | |
Qi et al. | A ferroptosis-related gene signature identified as a novel prognostic biomarker for colon cancer | |
Yang et al. | Integrated analysis to evaluate the prognostic value of signature mRNAs in glioblastoma multiforme | |
Salinas et al. | A prediction model for preoperative risk assessment in endometrial cancer utilizing clinical and molecular variables | |
Lu et al. | Advances in machine learning processing of big data from disease diagnosis sensors | |
Esteban-Gil et al. | ColPortal, an integrative multiomic platform for analysing epigenetic interactions in colorectal cancer | |
Yılmaz et al. | In silico methods for the identification of diagnostic and favorable prognostic markers in acute myeloid leukemia | |
Zhang et al. | A novel diagnostic approach for the classification of small B-cell lymphoid neoplasms based on the NanoString platform | |
Han et al. | The prognostic value of circular RNA regulatory genes in competitive endogenous RNA network in gastric cancer | |
Wang et al. | Terminal modifications independent cell-free RNA sequencing enables sensitive early cancer detection and classification | |
Pan et al. | Utility of circulating tumor cells and DNA in the management of advanced colorectal cancer | |
Liu et al. | Insight of novel biomarkers for papillary thyroid carcinoma through multiomics | |
Wang et al. | Identification of key biomarkers for STAD using filter feature selection approaches | |
Deng et al. | Singular value decomposition-driven non-negative matrix factorization with application to identify the association patterns of sarcoma recurrence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |