CN113140258A

CN113140258A - 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法

Info

Publication number: CN113140258A
Application number: CN202110467905.XA
Authority: CN
Inventors: 陈湫扬; 孔薇
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-20
Anticipated expiration: 2041-04-28
Also published as: CN113140258B

Abstract

本发明公开了一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法，包括：S1：对正常人与肺腺癌患者肺部细胞的转录本数据进行数据处理，筛选出差异表达基因；S2：使用EPIC计算肺腺癌组织中免疫细胞浸润的丰度，得到预后相关免疫细胞类型；根据预后相关免疫细胞类型，筛选出与预后相关免疫细胞类型相关的差异基因；S3：使用WGCNA对步骤S2得到的与预后相关免疫细胞类型相关的差异基因进行聚类分析，将其分为若干个聚类模块；S4：对包含基因最多且聚类效果最好的聚类模块进行蛋白质互作分析，筛选3‑6个肺腺癌候选基因；S5：对步骤S4得到的肺腺癌候选基因进行生存分析，得到肺腺癌潜在预后生物标志物。

Description

基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法

技术领域

本发明涉及生物信息技术领域，具体涉及一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法。

背景技术

肺癌是世界上最常见的恶性肿瘤之一，由于其高发病率和高死亡率而危及生命。由于其独特的生物学行为，肺腺癌(LUAD)的个体化治疗也成为治疗的热点。尽管目前免疫治疗取得了很大进展，但LUAD患者的预后仍然很差。众所周知，大多数癌症如果在早期诊断出来是可以被治愈的，目前已有影像遗传学、生物标志物等方法用于早期筛查和治疗。越来越多的证据表明，肿瘤微环境的免疫浸润与LUAD患者的免疫治疗和总体生存率息息相关。

肿瘤微环境(TME)是肿瘤发生过程中的复杂的内部环境，由浸润的免疫细胞、间质成纤维细胞、活性介质和肿瘤细胞等组成。在肿瘤免疫基因组学研究中，肿瘤微环境在LUAD的生长、发展和转移中起着重要作用。

传统的研究大多使用免疫组织化学(IHC)和流式细胞术(FCM)等方法来评估肿瘤中浸润的免疫细胞的组成，但这些方法有其局限性。此类方法依赖于对细胞表面标记物的识别，而免疫亚群的代表性标记可能会在其他细胞类型中表达，且流式细胞术需要分解组织，可能会导致细胞丢失或结果失真。而解卷积法可以定量地估计细胞类型的相对分数，并且已通过流式细胞分选术可以很好地验证，其中CIBERSORT、TIMER都使用解卷积来估计细胞丰度。CIBERSORT使用v-支持向量回归来推断22种不同免疫细胞的浸润丰度。尽管CIBERSORT在消除噪声和准确性方面优于以前的算法，但由于回归分析的统计共线性效应，CIBERSORT很容易估计偏差。CIBERSORT提供了可以在样本和细胞类型之间进行比较的分数，但仍然不是细胞分数。而TIMER使用线性最小二乘回归估计6个免疫细胞的丰度，其可以通过筛选免疫标签基因并去除高表达基因来消除偏差效应。但是，缺点是最终的估计值未标准化至总和为1。TIMER能提供以任意单位表示的分数，但仅当与同一组中的其他样本进行比较时才有意义。

与以往量化免疫细胞的方法不同，EPIC可以估计免疫细胞和癌细胞的比例，并可以提供代表细胞分数的绝对评分，还可以在样本间和样本内进行比较。而且，EPIC可以分析成纤维细胞、内皮细胞以及未表征细胞的丰度。此外，基于免疫细胞浸润肿瘤微环境的作用，CIBERSORT和TIMER尚未在人类患者的实体瘤中得到验证，而EPIC曾在来自四个黑素瘤患者的淋巴结的RNA-seq数据进行过测试(Racle J,de Jonge K,Baumgaertner P,SpeiserDE,Gfeller D.Simultaneous enumeration of cancer and immune cell types frombulk tumor gene expression data.Elife.2017Nov 13；(6):e26476)。

发明内容

本发明的目的是提供一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法，筛选出与肺腺癌免疫浸润相关的潜在预后生物标志物，为肺腺癌的免疫疗法提供帮助。

为了达到上述目的，本发明提供了一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法，包括下述步骤：

S1：获得正常人与肺腺癌患者肺部细胞的转录本数据，对所述转录本数据进行数据处理，筛选出差异表达基因；

S2：使用EPIC计算肺腺癌组织中免疫细胞浸润的丰度，得到预后相关免疫细胞类型；根据所述预后相关免疫细胞类型，从步骤S1得到的差异表达基因中，筛选出与预后相关免疫细胞类型相关的差异基因；

S3：使用WGCNA对步骤S2得到的与预后相关免疫细胞类型相关的差异基因进行聚类分析，将其分为若干个聚类模块；

S4：对包含基因最多且聚类效果最好的聚类模块进行蛋白质互作分析，比较蛋白质之间的相互作用的强度，筛选3-6个肺腺癌候选基因；

S5：对步骤S4得到的肺腺癌候选基因进行生存分析，得到肺腺癌潜在预后生物标志物。

可选的，所述步骤S1中，获得正常人与肺腺癌患者肺部细胞转录本数据的方法包括：从TCGA数据库中下载。

可选的，所述步骤S1中，对转录本数据进行数据处理包括：

(1)数据过滤，去除数值为0的转录本数据；

(2)使用RESM对过滤后的转录本数据进行定量处理；

(3)分离mRNA矩阵；

(4)基因表达差异分析。

可选的，所述基因表达差异分析通过edgeR实现，差异表达基因的筛选标准为|log₂fold change|＞1且P_adjust＜0.05。

可选的，所述差异表达基因是指：与肺腺癌患者相比，正常人肺部细胞中上调表达的基因。

可选的，所述步骤S4中，肺腺癌候选基因为5个。

可选的，所述方法还包括：验证步骤，所述验证步骤是指将步骤S4筛选得到的肺腺癌潜在预后生物标志物在GEPIA数据库中进行验证。

可选的，所述肺腺癌潜在预后生物标志物为GNG7和ADRB2。

相比于现有技术，本发明的有益效果是：

本发明通过EPIC算法定量估计样本间和样本内不同细胞类型的相对分数，通过比较TIMER算法和EPIC算法定量免疫细胞丰度的结果，发现EPIC所能筛选得出的预后相关的免疫细胞比TIMER要多。同时，本发明通过WGCNA聚类具有相似生物过程的基因，深度分析基因之间的相互作用，筛选出预后高度相关的基因。

附图说明

图1为本发明基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法的流程图。

图2为本发明正常样本和肿瘤样本中7种免疫细胞浸润丰度箱线图；图2的A为正常样本和肿瘤样本中B细胞免疫细胞浸润丰度箱线图；图2的B为正常样本和肿瘤样本中CD8⁺T细胞免疫细胞浸润丰度箱线图；图2的C为正常样本和肿瘤样本中CD4⁺T细胞免疫细胞浸润丰度箱线图；图2的D为正常样本和肿瘤样本中CAF细胞免疫细胞浸润丰度箱线图；图2的E为正常样本和肿瘤样本中内皮细胞免疫细胞浸润丰度箱线图；图2的F为正常样本和肿瘤样本中巨噬细胞免疫细胞浸润丰度箱线图；图2的G为正常样本和肿瘤样本中NK细胞免疫细胞浸润丰度箱线图。

图3为本发明使用TIMER得到的6种免疫细胞浸润丰度的箱线图。

图4为本发明与B细胞和CD8⁺T细胞有关的差异基因的WGCNA分析结果；图4的A为尺度独立性和平均连通性；图4的B为无尺度网络的拟合曲线；图4的C为与B细胞和CD8⁺T细胞有关的差异上调的基因聚类分析图；图4的D为不同聚类模块之间的相关性结果图；图4的E为模块相似性结果的聚类图。

图5为本发明WGCNA聚类得到的包含基因最多且聚类效果最好的模块的KEGG通路分析图。

图6为本发明WGCNA聚类得到的包含基因最多且聚类效果最好的模块的PPI蛋白质互作网络结果图。

图7为本发明多变量Cox风险回归模型的构建；图7的A为本发明高风险组和低风险组的K-M生存曲线图；图7的B为预后模型的ROC曲线图。

图8为本发明五个中枢基因表达水平对LUAD患者预后的影响；图8的A为GNG7的表达水平对LUAD患者预后的影响；图8的B为ADRB2的表达水平对LUAD患者预后的影响；图8的C为EDN1的表达水平对LUAD患者预后的影响；图8的D为ADCY4的表达水平对LUAD患者预后的影响；图8的E为CAV1的表达水平对LUAD患者预后的影响。

图9为本发明使用GEPIA数据库验证GNG7和ADRB2可以用作LUAD的预后标志物；图9的A为正常样本下GNG7组织的表达水平的箱形图；图9的B为与TCGA正常数据匹配的ADRB2组织表达的箱形图；图9的C为GNG7的Kaplan-Meier曲线；图9的D为ADRB2的Kaplan-Meier曲线。

具体实施方式

以下结合附图和实施例对本发明的技术方案做进一步的说明。

本发明提供了一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法，包括下述步骤：

本发明通过EPIC算法定量估计样本间和样本内不同细胞类型的相对分数，通过WGCNA聚类具有相似生物过程的基因，深度分析基因之间的相互作用，筛选出预后高度相关的基因。

<EPIC估计免疫细胞和癌症细胞的比例>

在EPIC中，将大量样品的基因表达数据建模为纯细胞类型的基因表达谱的总和。另外，EPIC使用隐式标准化的RNA-seq数据代替原始数据，表示为如下公式：

其中，

是使用TPM标准化的大量样本的数据，

是使用TPM标准化的来自不同细胞的m个基因表达谱矩阵，

是使用TPM标准化的样本中m个细胞类型所占比例，

是使用TPM标准化的样本j中m个细胞类型所占比例的向量，可以用如下公式进行表达。

其中，l_i是基因i的长度，l_k是基因k的长度，C_kj是j个基因的维度为(k*j)表达谱矩阵，b_i是样本中基因i的表达数据。并且，归一化确保了比值的总和不超过1，可以用以下公式表达：

则第m个未表征的细胞

可以表示为：

又由于EPIC使用归一化的基因表达数据，因此

实际上对应于每种细胞的mRNA比率，而不是细胞比率。且每种细胞的mRNA含量可能存在显著差异，则每种细胞的实际比例p_j可以表示为：

其中，r_j等于细胞j中RNA的总重量，而α是归一化常数，因此∑p_j＝1。

<WGCNA加权基因共表达网络分析>

为了寻找和肿瘤浸润性免疫细胞具有相似生物学过程的其他重要基因，则将与免疫细胞相关的DEmRNA构建加权基因共表达网络。首先，根据不同样本中基因的表达数据，计算两个差异基因a_i和a_j之间的Pearson相关系数，用符号s_ij表示。

s_ij＝cor(a_i,a_j)

使用幂函数转换为邻接矩阵a_ij，公式如下：

a_ij＝power(s_ij,β)＝|s_ij|^β

由无尺度网络原则决定确定软阈值β。当β为3时，利用拓扑重叠测量方法(TOM)计算基因之间的关联程度，再将邻接关系转换为拓扑重叠矩阵TOM_ij，公式为：

其中，K_i＝∑_μa_iμ。μ是基因i和基因j的公共节点。∑_μa_iμa_μj为公共节点μ与i和j之间邻接系数乘积的和。K_i表示基因i与仅与基因i连接的其他节点之间的邻接系数之和。K_j表示基因j与仅与基因j连接的其他节点之间的邻接系数之和。

Dynamic TreeCut方法用于合并相似的共表达基因，并进一步聚类以确定模块。最后，计算每个模块的模块特征基因(module eigengene，ME)与临床特征之间的Pearson相关系数和P值，以确定关键模块。当p<0.05时，具有统计学意义，且模块与性状显著相关。

实施例基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法

步骤1：TCGA下载数据

使用TCGA数据库中的样本验证所提出的方法的有效性，TCGA数据库中包括肺腺癌患者的转录本数据和临床数据，其中包含59名健康对照(HC)和535名LUAD患者。

步骤2：数据预处理，分离mRNA矩阵，使用edgeR进行基因表达差异分析

删除上述转录本数据和临床数据中数值为0的数据，并使用RESM进行量化处理，同时分离出转录本数据中的mRNA表达数据。

经过数据预处理后，使用“edgeR”包进行差异分析，在本实施例中，选择|log₂foldchange|＞1且P_adjust＜0.05作为阈值筛选差异表达基因，对于所有P值，使用错误发现率(FDR)＜0.05来校正多次测试的统计显着性。其中，fold change指基因表达水平的变化倍数，P_adjust指FDR校正后的P值。通过差异分析，共得到3682个DEmRNA，其中上调的差异基因有1445个，下调的差异基因有2237个。

步骤3：EPIC计算免疫细胞构成比例，并与TIMER对比

对于上述的1445个上调的DEmRNA，使用EPIC算法计算LUAD中免疫细胞浸润的丰度。如图2所示，该数据中B细胞和CD4⁺T细胞的浸润丰度是最小的。并且可以推断，肿瘤样品中B细胞，CD4⁺T细胞，CAF，内皮细胞和巨噬细胞的浸润程度显著增加，而肿瘤样本中的CD8⁺T细胞和NK细胞浸润丰度明显减少。为了进一步验证免疫细胞浸润程度与LUAD免疫疗法的关系，构建了以年龄、性别、纯度、分期、种族和免疫细胞作为协变量的多变量Cox比例风险模型在表一中。“significant”一列中的指标“*”表示该变量与LUAD的预后相关，并且“*”数量越多，相关性越高。显然，除分期外，B细胞和CD8⁺T细胞的浸润丰度也是重要预后因素。基于以上结果，下面将从浸润的B细胞和CD8⁺T细胞着手研究。

表一基于EPIC的多变量Cox回归模型

为了验证EPIC算法的优越性，进一步使用TIMER算法对同批数据进行免疫细胞浸润丰度的计算以及构建多变量回归模型。图3为使用TIMER定量得到的箱线图，展示了肿瘤样品中B细胞的浸润程度显著增加，而肿瘤样品中的CD8⁺T细胞、CD4⁺T细胞、中性粒细胞、巨噬细胞，中性粒细胞和髓样细胞的浸润程度明显减少。

表二是通过TIMER2.0构建的多变量Cox回归模型，其变量为年龄、性别、纯度、肿瘤分期、种族和6种肿瘤浸润免疫细胞。通过表二中的指标significant，可以发现使用TIMER算法只能得出B细胞与LUAD患者的预后密切相关。而EPIC算法除了获得B细胞外，还可以证明CD8⁺T细胞与LUAD患者的预后有关。因此，选择EPIC来量化免疫细胞浸润丰度，并筛选相关基因以用于随后的生物标志物搜索分析。

表二基于TIMER的多变量Cox回归

步骤4：筛选与免疫浸润细胞相关的DEmRNA

通过计算B细胞和CD8⁺T细胞的浸润丰度与上调的DEmRNA表达数据之间的Pearson相关系数，获得了103个与B细胞呈正相关的基因和247个呈负相关的基因，并且获得了429个与CD8⁺T细胞正相关的基因和57个负相关基因。经过筛选和整合，共有707个基因与B细胞和CD8⁺T细胞有关。

步骤5：WGCNA构建加权基因共表达网络

为了进一步探讨免疫浸润与LUAD的关系，并筛选与异常免疫浸润细胞高度相关的基因，将与B细胞和CD8⁺T细胞相关的707个差异基因构建了加权基因共表达网络。使用一步法，通过层次聚类将基因分为五个模块分别为绿松石模块、蓝色模块、棕色模块、黄色模块和灰色模块，其中基因数量最多的是绿松石模块。进一步分析聚类模块之间的拓扑重叠性以及相关性，结果如图4所示。

步骤6：关键模块中筛选出5个Hub基因

为了进一步研究与LUAD中B细胞和CD8⁺T细胞密切相关的基因的特定生物学机制，对WGCNA中具有最明显聚类效果的绿松石模块中461个上调基因进行KEGG通路分析：提取了七个最丰富的生物过程关键字，并计算了每个模块中涉及的关键字数量。对于KEGG通路条形图(如图5)，由于代谢通路包含最多的基因，因此首先聚焦于代谢通路中的基因。Chang等人提出，代谢重塑是肿瘤发生和发展的关键因素(Chang L,Fang S,Gu W.The MolecularMechanism of Metabolic Remodeling in Lung Cancer.J Cancer.2020Jan 13；11(6):1403-1411)。而MAPK信号传导通路参与一系列细胞生理活动，例如细胞生长、发育、分化和凋亡，并在肿瘤发生中起重要作用(Santarpia L,Lippman SM,El-Naggar AK.Targetingthe MAPK-RAS-RAF signaling pathway in cancer therapy.Expert Opin TherTargets.2012Jan；16(1):103-19)。根据文献已知cAMP可以促进癌细胞的分化以控制癌症，包括抑制细胞生长和迁移以及增强癌细胞对常规抗肿瘤药物的敏感性(Sapio L,Gallo M,Illiano M,et al.The Natural cAMP Elevating Compound Forskolin in CancerTherapy:Is It Time？J Cell Physiol.2017May；232(5):922-927)。因此，所提出的算法可以有效地选择与癌症相关的基因。

为了探索基因之间的关系以及挖掘核心调控基因，使用STRING数据库用于构建蛋白质-蛋白质相互作用网络。根据节点之间的交互得分，将combined_score>0.7的节点选为高度相关的节点，并删除孤立的节点，并选择degree>10的基因作为关键基因。如图6所示，主要的PPI网络由115个节点和243个边组成，其中颜色最深的是得分最高的基因，即相互作用最强，五个形状较大、颜色较深的节点(GNG7，ADRB2，EDN1，ADCY4和CAV1)为申请人发现的中枢基因。

步骤7：对5个Hub基因进行生存分析、生物学分析

为了研究五个中枢基因(GNG7，ADRB2，EDN1，ADCY4和CAV1)是否与LUAD的预后相关，基于LUAD患者的临床数据(生存时间和状态)与5个基因的表达数据，使用多变量Cox比例危险模型进行生存分析。根据中位风险评分的分值将肿瘤样本分为高风险组和低风险。如图7所示，其中位于下方的曲线是高风险人群组，位于上方的是低风险人群组。高风险和低风险组的生存曲线显示生存时间有显著差异，高风险组的样本的生存率明显低于低风险组的样本。而接收者操作特征(ROC)曲线分析表明，五个中枢基因可以作为LUAD的潜在生物标记。进一步地，绘制肺腺癌患者的5个关键基因的Kaplan-Meier生存曲线，并进行数秩检验。如图8所示，两个基因(GNG7和ADRB2)的表达水平与LUAD患者的生存率显着相关(P<0.05),其余不符合要求的基因由于不可作为肺腺癌患者的预后标志物，因而不做分析。在图8的A中，位于下方的曲线是肺腺癌组织中低表达的GNG7的生存率曲线，位于上方的曲线是肺腺癌组织中高表达的GNG7的生存率曲线。在图8的B中，位于下方的曲线是肺腺癌组织中低表达的ADRB2的生存率曲线，位于上方的曲线是肺腺癌组织中高表达的ADRB2的生存率曲线。据图所示，低表达的GNG7和ADRB2的LUAD患者的总生存期显著变差。

步骤8：验证GNG7和ADRB2是潜在预后标志物

为了验证这一结论，使用基因表达谱分析(GEPIA)数据库来验证GNG7和ADRB2两个基因的可靠性。通过探索LUAD中GNG7和ADRB2的表达水平，并再次进行了生存分析以证实我们的结论，如图9所示，符号“*”表示该基因是差异基因，并且，左边的模块代表肿瘤，右边的部分代表正常组织。结果显示正常组织中GNG7和ADRB2的表达水平均远高于肺腺癌中的表达水平。此外，图9的C与D分别是GNG7和ADRB2的Kaplan-Meier生存曲线，其中位于下方的曲线是GNG7和ADRB2表达水平低的曲线，而位于上方的曲线是GNG7和ADRB2表达水平高的曲线。结果显示GNG7和ADRB2的低浸润水平与肺腺癌的不良预后密切相关。通过GEPIA再次确认了GNG7和ADRB2可被视为LUAD的预后生物标志物。

综上所述，本发明将TIMER和EPIC算法进行比较分析，发现EPIC方法可鉴定出更多与预后相关的免疫浸润细胞，通过对筛选出的与免疫细胞相关的基因进行聚类，将重要的聚类模块进行生物学分析，包括KEGG通路富集分析、对所选基因的PPI网络构建，以分析基因之间的相互作用。对相互作用最强的基因构建多变量回归模型以及生存分析，发现肺腺癌预后的潜在基因，即GNG7和ADRB2，分析得出肺腺癌患者中GNG7和ADRB2的低表达与预后不良有关，并选择GEPIA数据库进行验证。本发明通过不同的方法推断出：GNG7和ARDB2可能是肺腺癌的诊断标志物和潜在的预后生物标志物。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法，其特征在于，包括下述步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤S1中，获得正常人与肺腺癌患者肺部细胞转录本数据的方法包括：从TCGA数据库中下载。

3.如权利要求1所述的方法，其特征在于，所述步骤S1中，对转录本数据进行数据处理包括：

(1)数据过滤，去除数值为0的转录本数据；

(2)使用RESM对过滤后的转录本数据进行定量处理；

(3)分离mRNA矩阵；

(4)基因表达差异分析。

4.如权利要求3所述的方法，其特征在于，所述基因表达差异分析通过edgeR实现，差异表达基因的筛选标准为|log₂fold change|＞1且P_adjust＜0.05。

5.如权利要求4所述的方法，其特征在于，所述差异表达基因是指：与肺腺癌患者相比，正常人肺部细胞中上调表达的基因。

6.如权利要求1所述的方法，其特征在于，所述步骤S4中，肺腺癌候选基因为5个。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：验证步骤，所述验证步骤是指：将步骤S5筛选得到的肺腺癌潜在预后生物标志物在GEPIA数据库中进行验证。

8.如权利要求1所述的方法，其特征在于，所述肺腺癌潜在预后生物标志物为GNG7和ADRB2。