CN113140258A - 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 - Google Patents
基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 Download PDFInfo
- Publication number
- CN113140258A CN113140258A CN202110467905.XA CN202110467905A CN113140258A CN 113140258 A CN113140258 A CN 113140258A CN 202110467905 A CN202110467905 A CN 202110467905A CN 113140258 A CN113140258 A CN 113140258A
- Authority
- CN
- China
- Prior art keywords
- genes
- lung adenocarcinoma
- prognosis
- screening
- cells
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 title claims abstract description 81
- 201000005249 lung adenocarcinoma Diseases 0.000 title claims abstract description 81
- 210000002865 immune cell Anatomy 0.000 title claims abstract description 54
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 44
- 238000004393 prognosis Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012216 screening Methods 0.000 title claims abstract description 30
- 239000000090 biomarker Substances 0.000 title claims abstract description 12
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 109
- 230000014509 gene expression Effects 0.000 claims abstract description 43
- 230000008595 infiltration Effects 0.000 claims abstract description 31
- 238000001764 infiltration Methods 0.000 claims abstract description 31
- 230000004083 survival effect Effects 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims abstract description 15
- 239000000092 prognostic biomarker Substances 0.000 claims abstract description 12
- 210000005265 lung cell Anatomy 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000006916 protein interaction Effects 0.000 claims abstract description 8
- 238000007621 cluster analysis Methods 0.000 claims abstract description 5
- 238000012482 interaction analysis Methods 0.000 claims abstract description 4
- 102100035786 Guanine nucleotide-binding protein G(I)/G(S)/G(O) subunit gamma-7 Human genes 0.000 claims description 23
- 101001073247 Homo sapiens Guanine nucleotide-binding protein G(I)/G(S)/G(O) subunit gamma-7 Proteins 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 6
- 108020004999 messenger RNA Proteins 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000009274 differential gene expression Effects 0.000 claims 1
- 238000010195 expression analysis Methods 0.000 claims 1
- 210000004027 cell Anatomy 0.000 description 26
- 101000959437 Homo sapiens Beta-2 adrenergic receptor Proteins 0.000 description 19
- 102000017919 ADRB2 Human genes 0.000 description 18
- 210000001744 T-lymphocyte Anatomy 0.000 description 17
- 210000003719 b-lymphocyte Anatomy 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 12
- 210000001519 tissue Anatomy 0.000 description 11
- 201000011510 cancer Diseases 0.000 description 8
- 230000002596 correlated effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000004186 co-expression Effects 0.000 description 4
- 238000009169 immunotherapy Methods 0.000 description 4
- 102100039660 Adenylate cyclase type 4 Human genes 0.000 description 3
- 102100035888 Caveolin-1 Human genes 0.000 description 3
- 102100033902 Endothelin-1 Human genes 0.000 description 3
- 101000959333 Homo sapiens Adenylate cyclase type 4 Proteins 0.000 description 3
- 101000715467 Homo sapiens Caveolin-1 Proteins 0.000 description 3
- 101000925493 Homo sapiens Endothelin-1 Proteins 0.000 description 3
- 230000031018 biological processes and functions Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 210000002889 endothelial cell Anatomy 0.000 description 3
- 238000000684 flow cytometry Methods 0.000 description 3
- 210000002540 macrophage Anatomy 0.000 description 3
- 239000010981 turquoise Substances 0.000 description 3
- 208000005623 Carcinogenesis Diseases 0.000 description 2
- OHCQJHSOBUTRHG-KGGHGJDLSA-N FORSKOLIN Chemical compound O=C([C@@]12O)C[C@](C)(C=C)O[C@]1(C)[C@@H](OC(=O)C)[C@@H](O)[C@@H]1[C@]2(C)[C@@H](O)CCC1(C)C OHCQJHSOBUTRHG-KGGHGJDLSA-N 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 2
- 230000036952 cancer formation Effects 0.000 description 2
- 231100000504 carcinogenesis Toxicity 0.000 description 2
- 230000010261 cell growth Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000002950 fibroblast Anatomy 0.000 description 2
- 238000003364 immunohistochemistry Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 230000002503 metabolic effect Effects 0.000 description 2
- 230000037353 metabolic pathway Effects 0.000 description 2
- 210000000822 natural killer cell Anatomy 0.000 description 2
- 210000000440 neutrophil Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011275 oncology therapy Methods 0.000 description 2
- 238000003068 pathway analysis Methods 0.000 description 2
- 238000010837 poor prognosis Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- SUZLHDUTVMZSEV-UHFFFAOYSA-N Deoxycoleonol Natural products C12C(=O)CC(C)(C=C)OC2(C)C(OC(=O)C)C(O)C2C1(C)C(O)CCC2(C)C SUZLHDUTVMZSEV-UHFFFAOYSA-N 0.000 description 1
- 102000043136 MAP kinase family Human genes 0.000 description 1
- 108091054455 MAP kinase family Proteins 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 108700005075 Regulator Genes Proteins 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000004102 animal cell Anatomy 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 230000007321 biological mechanism Effects 0.000 description 1
- 125000000484 butyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000011712 cell development Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000006727 cell loss Effects 0.000 description 1
- 230000012292 cell migration Effects 0.000 description 1
- 230000036978 cell physiology Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- OHCQJHSOBUTRHG-UHFFFAOYSA-N colforsin Natural products OC12C(=O)CC(C)(C=C)OC1(C)C(OC(=O)C)C(O)C1C2(C)C(O)CCC1(C)C OHCQJHSOBUTRHG-UHFFFAOYSA-N 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 108091008053 gene clusters Proteins 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 101150044508 key gene Proteins 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 210000000066 myeloid cell Anatomy 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法,包括:S1:对正常人与肺腺癌患者肺部细胞的转录本数据进行数据处理,筛选出差异表达基因;S2:使用EPIC计算肺腺癌组织中免疫细胞浸润的丰度,得到预后相关免疫细胞类型;根据预后相关免疫细胞类型,筛选出与预后相关免疫细胞类型相关的差异基因;S3:使用WGCNA对步骤S2得到的与预后相关免疫细胞类型相关的差异基因进行聚类分析,将其分为若干个聚类模块;S4:对包含基因最多且聚类效果最好的聚类模块进行蛋白质互作分析,筛选3‑6个肺腺癌候选基因;S5:对步骤S4得到的肺腺癌候选基因进行生存分析,得到肺腺癌潜在预后生物标志物。
Description
技术领域
本发明涉及生物信息技术领域,具体涉及一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法。
背景技术
肺癌是世界上最常见的恶性肿瘤之一,由于其高发病率和高死亡率而危及生命。由于其独特的生物学行为,肺腺癌(LUAD)的个体化治疗也成为治疗的热点。尽管目前免疫治疗取得了很大进展,但LUAD患者的预后仍然很差。众所周知,大多数癌症如果在早期诊断出来是可以被治愈的,目前已有影像遗传学、生物标志物等方法用于早期筛查和治疗。越来越多的证据表明,肿瘤微环境的免疫浸润与LUAD患者的免疫治疗和总体生存率息息相关。
肿瘤微环境(TME)是肿瘤发生过程中的复杂的内部环境,由浸润的免疫细胞、间质成纤维细胞、活性介质和肿瘤细胞等组成。在肿瘤免疫基因组学研究中,肿瘤微环境在LUAD的生长、发展和转移中起着重要作用。
传统的研究大多使用免疫组织化学(IHC)和流式细胞术(FCM)等方法来评估肿瘤中浸润的免疫细胞的组成,但这些方法有其局限性。此类方法依赖于对细胞表面标记物的识别,而免疫亚群的代表性标记可能会在其他细胞类型中表达,且流式细胞术需要分解组织,可能会导致细胞丢失或结果失真。而解卷积法可以定量地估计细胞类型的相对分数,并且已通过流式细胞分选术可以很好地验证,其中CIBERSORT、TIMER都使用解卷积来估计细胞丰度。CIBERSORT使用v-支持向量回归来推断22种不同免疫细胞的浸润丰度。尽管CIBERSORT在消除噪声和准确性方面优于以前的算法,但由于回归分析的统计共线性效应,CIBERSORT很容易估计偏差。CIBERSORT提供了可以在样本和细胞类型之间进行比较的分数,但仍然不是细胞分数。而TIMER使用线性最小二乘回归估计6个免疫细胞的丰度,其可以通过筛选免疫标签基因并去除高表达基因来消除偏差效应。但是,缺点是最终的估计值未标准化至总和为1。TIMER能提供以任意单位表示的分数,但仅当与同一组中的其他样本进行比较时才有意义。
与以往量化免疫细胞的方法不同,EPIC可以估计免疫细胞和癌细胞的比例,并可以提供代表细胞分数的绝对评分,还可以在样本间和样本内进行比较。而且,EPIC可以分析成纤维细胞、内皮细胞以及未表征细胞的丰度。此外,基于免疫细胞浸润肿瘤微环境的作用,CIBERSORT和TIMER尚未在人类患者的实体瘤中得到验证,而EPIC曾在来自四个黑素瘤患者的淋巴结的RNA-seq数据进行过测试(Racle J,de Jonge K,Baumgaertner P,SpeiserDE,Gfeller D.Simultaneous enumeration of cancer and immune cell types frombulk tumor gene expression data.Elife.2017Nov 13;(6):e26476)。
发明内容
本发明的目的是提供一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法,筛选出与肺腺癌免疫浸润相关的潜在预后生物标志物,为肺腺癌的免疫疗法提供帮助。
为了达到上述目的,本发明提供了一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法,包括下述步骤:
S1:获得正常人与肺腺癌患者肺部细胞的转录本数据,对所述转录本数据进行数据处理,筛选出差异表达基因;
S2:使用EPIC计算肺腺癌组织中免疫细胞浸润的丰度,得到预后相关免疫细胞类型;根据所述预后相关免疫细胞类型,从步骤S1得到的差异表达基因中,筛选出与预后相关免疫细胞类型相关的差异基因;
S3:使用WGCNA对步骤S2得到的与预后相关免疫细胞类型相关的差异基因进行聚类分析,将其分为若干个聚类模块;
S4:对包含基因最多且聚类效果最好的聚类模块进行蛋白质互作分析,比较蛋白质之间的相互作用的强度,筛选3-6个肺腺癌候选基因;
S5:对步骤S4得到的肺腺癌候选基因进行生存分析,得到肺腺癌潜在预后生物标志物。
可选的,所述步骤S1中,获得正常人与肺腺癌患者肺部细胞转录本数据的方法包括:从TCGA数据库中下载。
可选的,所述步骤S1中,对转录本数据进行数据处理包括:
(1)数据过滤,去除数值为0的转录本数据;
(2)使用RESM对过滤后的转录本数据进行定量处理;
(3)分离mRNA矩阵;
(4)基因表达差异分析。
可选的,所述基因表达差异分析通过edgeR实现,差异表达基因的筛选标准为|log2fold change|>1且Padjust<0.05。
可选的,所述差异表达基因是指:与肺腺癌患者相比,正常人肺部细胞中上调表达的基因。
可选的,所述步骤S4中,肺腺癌候选基因为5个。
可选的,所述方法还包括:验证步骤,所述验证步骤是指将步骤S4筛选得到的肺腺癌潜在预后生物标志物在GEPIA数据库中进行验证。
可选的,所述肺腺癌潜在预后生物标志物为GNG7和ADRB2。
相比于现有技术,本发明的有益效果是:
本发明通过EPIC算法定量估计样本间和样本内不同细胞类型的相对分数,通过比较TIMER算法和EPIC算法定量免疫细胞丰度的结果,发现EPIC所能筛选得出的预后相关的免疫细胞比TIMER要多。同时,本发明通过WGCNA聚类具有相似生物过程的基因,深度分析基因之间的相互作用,筛选出预后高度相关的基因。
附图说明
图1为本发明基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法的流程图。
图2为本发明正常样本和肿瘤样本中7种免疫细胞浸润丰度箱线图;图2的A为正常样本和肿瘤样本中B细胞免疫细胞浸润丰度箱线图;图2的B为正常样本和肿瘤样本中CD8+T细胞免疫细胞浸润丰度箱线图;图2的C为正常样本和肿瘤样本中CD4+T细胞免疫细胞浸润丰度箱线图;图2的D为正常样本和肿瘤样本中CAF细胞免疫细胞浸润丰度箱线图;图2的E为正常样本和肿瘤样本中内皮细胞免疫细胞浸润丰度箱线图;图2的F为正常样本和肿瘤样本中巨噬细胞免疫细胞浸润丰度箱线图;图2的G为正常样本和肿瘤样本中NK细胞免疫细胞浸润丰度箱线图。
图3为本发明使用TIMER得到的6种免疫细胞浸润丰度的箱线图。
图4为本发明与B细胞和CD8+T细胞有关的差异基因的WGCNA分析结果;图4的A为尺度独立性和平均连通性;图4的B为无尺度网络的拟合曲线;图4的C为与B细胞和CD8+T细胞有关的差异上调的基因聚类分析图;图4的D为不同聚类模块之间的相关性结果图;图4的E为模块相似性结果的聚类图。
图5为本发明WGCNA聚类得到的包含基因最多且聚类效果最好的模块的KEGG通路分析图。
图6为本发明WGCNA聚类得到的包含基因最多且聚类效果最好的模块的PPI蛋白质互作网络结果图。
图7为本发明多变量Cox风险回归模型的构建;图7的A为本发明高风险组和低风险组的K-M生存曲线图;图7的B为预后模型的ROC曲线图。
图8为本发明五个中枢基因表达水平对LUAD患者预后的影响;图8的A为GNG7的表达水平对LUAD患者预后的影响;图8的B为ADRB2的表达水平对LUAD患者预后的影响;图8的C为EDN1的表达水平对LUAD患者预后的影响;图8的D为ADCY4的表达水平对LUAD患者预后的影响;图8的E为CAV1的表达水平对LUAD患者预后的影响。
图9为本发明使用GEPIA数据库验证GNG7和ADRB2可以用作LUAD的预后标志物;图9的A为正常样本下GNG7组织的表达水平的箱形图;图9的B为与TCGA正常数据匹配的ADRB2组织表达的箱形图;图9的C为GNG7的Kaplan-Meier曲线;图9的D为ADRB2的Kaplan-Meier曲线。
具体实施方式
以下结合附图和实施例对本发明的技术方案做进一步的说明。
本发明提供了一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法,包括下述步骤:
S1:获得正常人与肺腺癌患者肺部细胞的转录本数据,对所述转录本数据进行数据处理,筛选出差异表达基因;
S2:使用EPIC计算肺腺癌组织中免疫细胞浸润的丰度,得到预后相关免疫细胞类型;根据所述预后相关免疫细胞类型,从步骤S1得到的差异表达基因中,筛选出与预后相关免疫细胞类型相关的差异基因;
S3:使用WGCNA对步骤S2得到的与预后相关免疫细胞类型相关的差异基因进行聚类分析,将其分为若干个聚类模块;
S4:对包含基因最多且聚类效果最好的聚类模块进行蛋白质互作分析,比较蛋白质之间的相互作用的强度,筛选3-6个肺腺癌候选基因;
S5:对步骤S4得到的肺腺癌候选基因进行生存分析,得到肺腺癌潜在预后生物标志物。
本发明通过EPIC算法定量估计样本间和样本内不同细胞类型的相对分数,通过WGCNA聚类具有相似生物过程的基因,深度分析基因之间的相互作用,筛选出预后高度相关的基因。
<EPIC估计免疫细胞和癌症细胞的比例>
在EPIC中,将大量样品的基因表达数据建模为纯细胞类型的基因表达谱的总和。另外,EPIC使用隐式标准化的RNA-seq数据代替原始数据,表示为如下公式:
其中,是使用TPM标准化的大量样本的数据,是使用TPM标准化的来自不同细胞的m个基因表达谱矩阵,是使用TPM标准化的样本中m个细胞类型所占比例,是使用TPM标准化的样本j中m个细胞类型所占比例的向量,可以用如下公式进行表达。
其中,li是基因i的长度,lk是基因k的长度,Ckj是j个基因的维度为(k*j)表达谱矩阵,bi是样本中基因i的表达数据。并且,归一化确保了比值的总和不超过1,可以用以下公式表达:
其中,rj等于细胞j中RNA的总重量,而α是归一化常数,因此∑pj=1。
<WGCNA加权基因共表达网络分析>
为了寻找和肿瘤浸润性免疫细胞具有相似生物学过程的其他重要基因,则将与免疫细胞相关的DEmRNA构建加权基因共表达网络。首先,根据不同样本中基因的表达数据,计算两个差异基因ai和aj之间的Pearson相关系数,用符号sij表示。
sij=cor(ai,aj)
使用幂函数转换为邻接矩阵aij,公式如下:
aij=power(sij,β)=|sij|β
由无尺度网络原则决定确定软阈值β。当β为3时,利用拓扑重叠测量方法(TOM)计算基因之间的关联程度,再将邻接关系转换为拓扑重叠矩阵TOMij,公式为:
其中,Ki=∑μaiμ。μ是基因i和基因j的公共节点。∑μaiμaμj为公共节点μ与i和j之间邻接系数乘积的和。Ki表示基因i与仅与基因i连接的其他节点之间的邻接系数之和。Kj表示基因j与仅与基因j连接的其他节点之间的邻接系数之和。
Dynamic TreeCut方法用于合并相似的共表达基因,并进一步聚类以确定模块。最后,计算每个模块的模块特征基因(module eigengene,ME)与临床特征之间的Pearson相关系数和P值,以确定关键模块。当p<0.05时,具有统计学意义,且模块与性状显著相关。
实施例基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法
步骤1:TCGA下载数据
使用TCGA数据库中的样本验证所提出的方法的有效性,TCGA数据库中包括肺腺癌患者的转录本数据和临床数据,其中包含59名健康对照(HC)和535名LUAD患者。
步骤2:数据预处理,分离mRNA矩阵,使用edgeR进行基因表达差异分析
删除上述转录本数据和临床数据中数值为0的数据,并使用RESM进行量化处理,同时分离出转录本数据中的mRNA表达数据。
经过数据预处理后,使用“edgeR”包进行差异分析,在本实施例中,选择|log2foldchange|>1且Padjust<0.05作为阈值筛选差异表达基因,对于所有P值,使用错误发现率(FDR)<0.05来校正多次测试的统计显着性。其中,fold change指基因表达水平的变化倍数,Padjust指FDR校正后的P值。通过差异分析,共得到3682个DEmRNA,其中上调的差异基因有1445个,下调的差异基因有2237个。
步骤3:EPIC计算免疫细胞构成比例,并与TIMER对比
对于上述的1445个上调的DEmRNA,使用EPIC算法计算LUAD中免疫细胞浸润的丰度。如图2所示,该数据中B细胞和CD4+T细胞的浸润丰度是最小的。并且可以推断,肿瘤样品中B细胞,CD4+T细胞,CAF,内皮细胞和巨噬细胞的浸润程度显著增加,而肿瘤样本中的CD8+T细胞和NK细胞浸润丰度明显减少。为了进一步验证免疫细胞浸润程度与LUAD免疫疗法的关系,构建了以年龄、性别、纯度、分期、种族和免疫细胞作为协变量的多变量Cox比例风险模型在表一中。“significant”一列中的指标“*”表示该变量与LUAD的预后相关,并且“*”数量越多,相关性越高。显然,除分期外,B细胞和CD8+T细胞的浸润丰度也是重要预后因素。基于以上结果,下面将从浸润的B细胞和CD8+T细胞着手研究。
表一基于EPIC的多变量Cox回归模型
为了验证EPIC算法的优越性,进一步使用TIMER算法对同批数据进行免疫细胞浸润丰度的计算以及构建多变量回归模型。图3为使用TIMER定量得到的箱线图,展示了肿瘤样品中B细胞的浸润程度显著增加,而肿瘤样品中的CD8+T细胞、CD4+T细胞、中性粒细胞、巨噬细胞,中性粒细胞和髓样细胞的浸润程度明显减少。
表二是通过TIMER2.0构建的多变量Cox回归模型,其变量为年龄、性别、纯度、肿瘤分期、种族和6种肿瘤浸润免疫细胞。通过表二中的指标significant,可以发现使用TIMER算法只能得出B细胞与LUAD患者的预后密切相关。而EPIC算法除了获得B细胞外,还可以证明CD8+T细胞与LUAD患者的预后有关。因此,选择EPIC来量化免疫细胞浸润丰度,并筛选相关基因以用于随后的生物标志物搜索分析。
表二基于TIMER的多变量Cox回归
步骤4:筛选与免疫浸润细胞相关的DEmRNA
通过计算B细胞和CD8+T细胞的浸润丰度与上调的DEmRNA表达数据之间的Pearson相关系数,获得了103个与B细胞呈正相关的基因和247个呈负相关的基因,并且获得了429个与CD8+T细胞正相关的基因和57个负相关基因。经过筛选和整合,共有707个基因与B细胞和CD8+T细胞有关。
步骤5:WGCNA构建加权基因共表达网络
为了进一步探讨免疫浸润与LUAD的关系,并筛选与异常免疫浸润细胞高度相关的基因,将与B细胞和CD8+T细胞相关的707个差异基因构建了加权基因共表达网络。使用一步法,通过层次聚类将基因分为五个模块分别为绿松石模块、蓝色模块、棕色模块、黄色模块和灰色模块,其中基因数量最多的是绿松石模块。进一步分析聚类模块之间的拓扑重叠性以及相关性,结果如图4所示。
步骤6:关键模块中筛选出5个Hub基因
为了进一步研究与LUAD中B细胞和CD8+T细胞密切相关的基因的特定生物学机制,对WGCNA中具有最明显聚类效果的绿松石模块中461个上调基因进行KEGG通路分析:提取了七个最丰富的生物过程关键字,并计算了每个模块中涉及的关键字数量。对于KEGG通路条形图(如图5),由于代谢通路包含最多的基因,因此首先聚焦于代谢通路中的基因。Chang等人提出,代谢重塑是肿瘤发生和发展的关键因素(Chang L,Fang S,Gu W.The MolecularMechanism of Metabolic Remodeling in Lung Cancer.J Cancer.2020Jan 13;11(6):1403-1411)。而MAPK信号传导通路参与一系列细胞生理活动,例如细胞生长、发育、分化和凋亡,并在肿瘤发生中起重要作用(Santarpia L,Lippman SM,El-Naggar AK.Targetingthe MAPK-RAS-RAF signaling pathway in cancer therapy.Expert Opin TherTargets.2012Jan;16(1):103-19)。根据文献已知cAMP可以促进癌细胞的分化以控制癌症,包括抑制细胞生长和迁移以及增强癌细胞对常规抗肿瘤药物的敏感性(Sapio L,Gallo M,Illiano M,et al.The Natural cAMP Elevating Compound Forskolin in CancerTherapy:Is It Time?J Cell Physiol.2017May;232(5):922-927)。因此,所提出的算法可以有效地选择与癌症相关的基因。
为了探索基因之间的关系以及挖掘核心调控基因,使用STRING数据库用于构建蛋白质-蛋白质相互作用网络。根据节点之间的交互得分,将combined_score>0.7的节点选为高度相关的节点,并删除孤立的节点,并选择degree>10的基因作为关键基因。如图6所示,主要的PPI网络由115个节点和243个边组成,其中颜色最深的是得分最高的基因,即相互作用最强,五个形状较大、颜色较深的节点(GNG7,ADRB2,EDN1,ADCY4和CAV1)为申请人发现的中枢基因。
步骤7:对5个Hub基因进行生存分析、生物学分析
为了研究五个中枢基因(GNG7,ADRB2,EDN1,ADCY4和CAV1)是否与LUAD的预后相关,基于LUAD患者的临床数据(生存时间和状态)与5个基因的表达数据,使用多变量Cox比例危险模型进行生存分析。根据中位风险评分的分值将肿瘤样本分为高风险组和低风险。如图7所示,其中位于下方的曲线是高风险人群组,位于上方的是低风险人群组。高风险和低风险组的生存曲线显示生存时间有显著差异,高风险组的样本的生存率明显低于低风险组的样本。而接收者操作特征(ROC)曲线分析表明,五个中枢基因可以作为LUAD的潜在生物标记。进一步地,绘制肺腺癌患者的5个关键基因的Kaplan-Meier生存曲线,并进行数秩检验。如图8所示,两个基因(GNG7和ADRB2)的表达水平与LUAD患者的生存率显着相关(P<0.05),其余不符合要求的基因由于不可作为肺腺癌患者的预后标志物,因而不做分析。在图8的A中,位于下方的曲线是肺腺癌组织中低表达的GNG7的生存率曲线,位于上方的曲线是肺腺癌组织中高表达的GNG7的生存率曲线。在图8的B中,位于下方的曲线是肺腺癌组织中低表达的ADRB2的生存率曲线,位于上方的曲线是肺腺癌组织中高表达的ADRB2的生存率曲线。据图所示,低表达的GNG7和ADRB2的LUAD患者的总生存期显著变差。
步骤8:验证GNG7和ADRB2是潜在预后标志物
为了验证这一结论,使用基因表达谱分析(GEPIA)数据库来验证GNG7和ADRB2两个基因的可靠性。通过探索LUAD中GNG7和ADRB2的表达水平,并再次进行了生存分析以证实我们的结论,如图9所示,符号“*”表示该基因是差异基因,并且,左边的模块代表肿瘤,右边的部分代表正常组织。结果显示正常组织中GNG7和ADRB2的表达水平均远高于肺腺癌中的表达水平。此外,图9的C与D分别是GNG7和ADRB2的Kaplan-Meier生存曲线,其中位于下方的曲线是GNG7和ADRB2表达水平低的曲线,而位于上方的曲线是GNG7和ADRB2表达水平高的曲线。结果显示GNG7和ADRB2的低浸润水平与肺腺癌的不良预后密切相关。通过GEPIA再次确认了GNG7和ADRB2可被视为LUAD的预后生物标志物。
综上所述,本发明将TIMER和EPIC算法进行比较分析,发现EPIC方法可鉴定出更多与预后相关的免疫浸润细胞,通过对筛选出的与免疫细胞相关的基因进行聚类,将重要的聚类模块进行生物学分析,包括KEGG通路富集分析、对所选基因的PPI网络构建,以分析基因之间的相互作用。对相互作用最强的基因构建多变量回归模型以及生存分析,发现肺腺癌预后的潜在基因,即GNG7和ADRB2,分析得出肺腺癌患者中GNG7和ADRB2的低表达与预后不良有关,并选择GEPIA数据库进行验证。本发明通过不同的方法推断出:GNG7和ARDB2可能是肺腺癌的诊断标志物和潜在的预后生物标志物。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (8)
1.一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法,其特征在于,包括下述步骤:
S1:获得正常人与肺腺癌患者肺部细胞的转录本数据,对所述转录本数据进行数据处理,筛选出差异表达基因;
S2:使用EPIC计算肺腺癌组织中免疫细胞浸润的丰度,得到预后相关免疫细胞类型;根据所述预后相关免疫细胞类型,从步骤S1得到的差异表达基因中,筛选出与预后相关免疫细胞类型相关的差异基因;
S3:使用WGCNA对步骤S2得到的与预后相关免疫细胞类型相关的差异基因进行聚类分析,将其分为若干个聚类模块;
S4:对包含基因最多且聚类效果最好的聚类模块进行蛋白质互作分析,比较蛋白质之间的相互作用的强度,筛选3-6个肺腺癌候选基因;
S5:对步骤S4得到的肺腺癌候选基因进行生存分析,得到肺腺癌潜在预后生物标志物。
2.如权利要求1所述的方法,其特征在于,所述步骤S1中,获得正常人与肺腺癌患者肺部细胞转录本数据的方法包括:从TCGA数据库中下载。
3.如权利要求1所述的方法,其特征在于,所述步骤S1中,对转录本数据进行数据处理包括:
(1)数据过滤,去除数值为0的转录本数据;
(2)使用RESM对过滤后的转录本数据进行定量处理;
(3)分离mRNA矩阵;
(4)基因表达差异分析。
4.如权利要求3所述的方法,其特征在于,所述基因表达差异分析通过edgeR实现,差异表达基因的筛选标准为|log2fold change|>1且Padjust<0.05。
5.如权利要求4所述的方法,其特征在于,所述差异表达基因是指:与肺腺癌患者相比,正常人肺部细胞中上调表达的基因。
6.如权利要求1所述的方法,其特征在于,所述步骤S4中,肺腺癌候选基因为5个。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:验证步骤,所述验证步骤是指:将步骤S5筛选得到的肺腺癌潜在预后生物标志物在GEPIA数据库中进行验证。
8.如权利要求1所述的方法,其特征在于,所述肺腺癌潜在预后生物标志物为GNG7和ADRB2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467905.XA CN113140258B (zh) | 2021-04-28 | 2021-04-28 | 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467905.XA CN113140258B (zh) | 2021-04-28 | 2021-04-28 | 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113140258A true CN113140258A (zh) | 2021-07-20 |
CN113140258B CN113140258B (zh) | 2024-03-19 |
Family
ID=76816263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110467905.XA Active CN113140258B (zh) | 2021-04-28 | 2021-04-28 | 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113140258B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792569A (zh) * | 2022-01-17 | 2022-07-26 | 吴式琇 | 一种基于影像组学建立炎症细胞浸润模型预测肿瘤治疗预后的方法 |
CN115631857A (zh) * | 2022-04-01 | 2023-01-20 | 洛兮医疗科技(杭州)有限公司 | 甲状腺癌cd8+t细胞免疫相关基因预后预测模型 |
CN116312814A (zh) * | 2021-12-02 | 2023-06-23 | 复旦大学 | 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒 |
CN116434832A (zh) * | 2023-03-17 | 2023-07-14 | 南方医科大学南方医院 | 一种量化肿瘤高内皮微静脉的基因集的构建方法及系统 |
CN117409962A (zh) * | 2023-12-14 | 2024-01-16 | 北京科技大学 | 一种基于基因调控网络的微生物标记物的筛选方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105936932A (zh) * | 2012-01-20 | 2016-09-14 | 俄亥俄州立大学 | 浸润性和预后的乳腺癌生物标志物标签 |
US20180106806A1 (en) * | 2016-10-13 | 2018-04-19 | Regents Of The University Of Minnesota | Tumor Analytical Methods |
CN109971862A (zh) * | 2019-02-14 | 2019-07-05 | 辽宁省肿瘤医院 | C9orf139和MIR600HG作为胰腺癌预后标志物及其确立方法 |
WO2019135957A1 (en) * | 2018-01-04 | 2019-07-11 | Nantomics, Llc | Immune gene expression signature in treg enriched tumor samples |
CN112635063A (zh) * | 2020-12-30 | 2021-04-09 | 华南理工大学 | 一种肺癌预后综合预测模型、构建方法及装置 |
-
2021
- 2021-04-28 CN CN202110467905.XA patent/CN113140258B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105936932A (zh) * | 2012-01-20 | 2016-09-14 | 俄亥俄州立大学 | 浸润性和预后的乳腺癌生物标志物标签 |
US20180106806A1 (en) * | 2016-10-13 | 2018-04-19 | Regents Of The University Of Minnesota | Tumor Analytical Methods |
WO2019135957A1 (en) * | 2018-01-04 | 2019-07-11 | Nantomics, Llc | Immune gene expression signature in treg enriched tumor samples |
CN109971862A (zh) * | 2019-02-14 | 2019-07-05 | 辽宁省肿瘤医院 | C9orf139和MIR600HG作为胰腺癌预后标志物及其确立方法 |
CN112635063A (zh) * | 2020-12-30 | 2021-04-09 | 华南理工大学 | 一种肺癌预后综合预测模型、构建方法及装置 |
Non-Patent Citations (2)
Title |
---|
施春波;董长征;陈磊;翁磊;: "肿瘤浸润性免疫细胞对肺腺癌预后影响的研究", 浙江医学, no. 15 * |
李洋;顾达;: "RASGRP1基因在皮肤黑色素瘤中的表达水平及其对患者临床预后的影响", 潍坊医学院学报, no. 01 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116312814A (zh) * | 2021-12-02 | 2023-06-23 | 复旦大学 | 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒 |
CN114792569A (zh) * | 2022-01-17 | 2022-07-26 | 吴式琇 | 一种基于影像组学建立炎症细胞浸润模型预测肿瘤治疗预后的方法 |
CN115631857A (zh) * | 2022-04-01 | 2023-01-20 | 洛兮医疗科技(杭州)有限公司 | 甲状腺癌cd8+t细胞免疫相关基因预后预测模型 |
CN115631857B (zh) * | 2022-04-01 | 2023-06-23 | 洛兮医疗科技(杭州)有限公司 | 甲状腺癌cd8+t细胞免疫相关基因预后预测模型 |
CN116434832A (zh) * | 2023-03-17 | 2023-07-14 | 南方医科大学南方医院 | 一种量化肿瘤高内皮微静脉的基因集的构建方法及系统 |
CN116434832B (zh) * | 2023-03-17 | 2024-03-08 | 南方医科大学南方医院 | 一种量化肿瘤高内皮微静脉的基因集的构建方法及系统 |
CN117409962A (zh) * | 2023-12-14 | 2024-01-16 | 北京科技大学 | 一种基于基因调控网络的微生物标记物的筛选方法 |
CN117409962B (zh) * | 2023-12-14 | 2024-03-29 | 北京科技大学 | 一种基于基因调控网络的微生物标记物的筛选方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113140258B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113140258B (zh) | 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 | |
CN109859801B (zh) | 一种含有七个基因作为生物标志物预测肺鳞癌预后的模型及建立方法 | |
CN109872772B (zh) | 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法 | |
Lusa et al. | Challenges in projecting clustering results across gene expression–profiling datasets | |
Chakraborty et al. | Surrogate variable analysis using partial least squares (SVA-PLS) in gene expression studies | |
CN109872776B (zh) | 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 | |
CN110993106A (zh) | 一种结合病理图像和临床信息的肝癌术后复发风险预测方法 | |
Milanez-Almeida et al. | Cancer prognosis with shallow tumor RNA sequencing | |
CN111128385B (zh) | 一种用于食管鳞癌的预后预警系统及其应用 | |
CN112048559A (zh) | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 | |
Liu et al. | Identification of a gene signature for renal cell carcinoma–associated fibroblasts mediating cancer progression and affecting prognosis | |
CN111128299A (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
CN114496066A (zh) | 一种三阴性乳腺癌预后的基因模型的构建方法及其应用 | |
CN115410713A (zh) | 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建 | |
Yuan et al. | WGCNA identification of TLR7 as a novel diagnostic biomarker, progression and prognostic indicator, and immunotherapeutic target for stomach adenocarcinoma | |
CN112837744A (zh) | 一种前列腺癌预后显著相关ceRNA调控网络的构建方法 | |
CN114203256B (zh) | 基于微生物丰度的mibc分型及预后预测模型构建方法 | |
CN114373548A (zh) | 一种基于代谢基因建立的胰腺癌预后风险预测方法和装置 | |
CN109859796B (zh) | 一种关于胃癌的dna甲基化谱的降维分析方法 | |
CN113345592B (zh) | 一种急性髓细胞样白血病预后风险模型的构建及诊断设备 | |
Zhan et al. | Development and validation of a prognostic gene signature in clear cell renal cell carcinoma | |
CN114317532A (zh) | 用于预测白血病预后的评估基因集、试剂盒、系统及应用 | |
CN110942808A (zh) | 一种基于基因大数据的预后预测方法及预测系统 | |
CN108108589B (zh) | 基于网络指标差异分析的食管鳞癌标记物的识别方法 | |
CN115798569A (zh) | 一种结直肠癌患者组织微生物特征和预后的预测方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |