CN109872776A

CN109872776A - 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用

Info

Publication number: CN109872776A
Application number: CN201910114155.0A
Authority: CN
Inventors: 王哲; 解夕黎
Original assignee: Liaoning Cancer Hospital and Institute
Current assignee: Liaoning Cancer Hospital and Institute
Priority date: 2019-02-14
Filing date: 2019-02-14
Publication date: 2019-06-11
Anticipated expiration: 2039-02-14
Also published as: CN109872776B

Abstract

本发明涉及生物医学领域，具体涉及一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。本发明采用加权基因共表达网络分析（WGCNA）以及KEGG通路、GO富集分析等分析方法。加权基因共表达网络分析（WGCNA）是一种高效、全面的高维数据分析方法，且其分析基因芯片数据的准确性和有效性已经得到证实。所述的应用本发明方法筛选出的潜在生物标志物为FERMT2。本发明为胃癌的诊断、治疗及预后提供了新方向，促进了“个体化治疗”的发展。

Description

一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用

技术领域

本发明涉及生物医学领域，具体涉及一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。

背景技术

胃癌(gastric cancer)是最常见的恶性肿瘤之一，发病率及死亡率居高不下，目前中国仍有许多进展期胃癌患者，也是世界上胃癌高发的国家之一。因此早期诊断、合理评估其预后并适时适度干预十分重要。目前研究揭示：胃癌是一种基因病，是由多种癌基因抗癌基因共同参与、多阶段多途径协同，使胃黏膜逐步发展到癌前病变，再发展到胃癌的一个演变过程。正常胃黏膜到癌前变过程及癌前变至胃癌过程皆存在特征性的差异表达基因。

分子病理学将分子杂交技术与组织形态学检测相融合，随着免疫组织化学及分子生物学的发展，胃癌的病理与免疫学及分子生物学研究之间越来越密不可分。目前已探索了许多与胃癌相关的基因及其蛋白质产物，早期发现这些基因及标志物为探讨胃癌发病机理开辟了新途径，更加能够揭示肿瘤组织的生长活性在肿瘤生长、浸润和转移方面的作用，从而更加准确地指导临床治疗、判断预后。

随着高通量数据集的出现，基因表达谱已被证实是一种有前途的肿瘤分类和预测癌症预后的工具。计算方法的飞速发展，也使得以网络为中心的方法更适合于获取复杂的信息，例如基因共表达网络、基因调控网络，蛋白质-蛋白质相互作用网络、信号转导网络和代谢网络等。其中，加权基因共表达网络分析(WGCNA)是一种高效、全面的高维数据分析方法，已被用于分析脑癌、酵母细胞周期、小鼠遗传学、灵长类动物脑组织、糖尿病、慢性疲劳患者和植物的基因表达数据。

目前胃镜检查是胃癌诊断的最有价值的方法，但由于其具有侵入性，限制了受检人数。胃癌的组织学和病理学分期是最终预后的金标准，然而它仅揭示个体患者疾病状态的有限信息。除此之外，它还受限于具有足够统计功能的合适计算方法的有限可用性以及具有相似组织病理学外观的患者之间的异质性。此外，胃癌危险因素复杂，使用单因素诊断胃癌准确性较低。综上所述，积极寻找新型潜在的生物标志物或基因标记，不仅能够提高胃癌诊断的准确性，还能有效预测胃癌的预后；是在科学技术发展的大背景下，胃癌研究的主流方向；在一定程度上推动了“精准化医疗”的发展。

发明内容

鉴于现有技术存在的问题，本发明的目的在于提供一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。所述的应用本发明方法筛选出的潜在生物标志物为FERMT2。本发明为胃癌的诊断、治疗及预后提供了新方向，促进了“个体化治疗”的发展。

为了实现上述目的，本发明采用以下技术方案。

一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法，应用此方法筛选出的潜在生物标志物为FERMT2。

一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用，具体包括以下步骤。

1)GEO数据下载和预处理：从GEO数据库下载包括癌症样本以及对应的临床随访信息的胃癌芯片数据。数据的预处理如下：下载数据集为log10-transformed RMA signalintensity，对每个样本进行分位数标准化(Using a normalization based uponquantiles)，进一步对每个样本进行聚类分析，筛选出表达谱较为一致的样本作为训练集样本。

2)筛选变化较大的基因：筛选变化较大的基因，如A基因符合筛选规则如下：①A基因在所有样本中的表达水平中位数高于所有基因在各个样本中表达水平的中位数的20％。②A基因在各个样本中表达水平的方差高于所有基因在各个样本中表达水平的方差的20％。

3)单因素生存分析：为了进一步观察这些在样本中变化较大的基因与预后的关系，使用R软件包survival对这些基因进行单因素生存分析，筛选出预后显著性p值小于0.01的基因作为种子基因。

4)基因与lncRNA共表达网络构建：WGCNA是使用基因表达数据来构建无尺度网络的系统生物学方法。其基本思路如下。首先，构建基因表达相似性矩阵，即计算两两基因之间皮尔森相关系数的绝对值，使用公式1计算基因i和基因j之间的皮尔森相关系数，其中i和j分别是第i个基因和第j个基因的表达量。公式1：

然后使用公式2将基因表达相似性矩阵转换成邻接矩阵，网络类型为signed。其中β为软阈值，其实就是将每对基因的皮尔森相关系数β次方。这一步能够从指数级别强化强相关性和减弱弱相关性。公式2：

下一步使用公式3将邻接矩阵转换成拓扑矩阵，拓扑重叠(topological overlapmeasure,TOM) 用来描述基因之间的关联程度。公式3：

1-TOM表示基因i和基因j之间的相异程度。使用1-TOM作为距离对基因进行层次聚类，然后使用动态剪切树的方法进行模块的识别。每个模块中最具有代表性的基因称为特征向量基因，简称ME，它代表了该模块内基因表达的整体水平，它是每个模块中的第一主成分，使用公式4来计算ME，其中i表示模块 q中的基因，l表示模块q中的芯片样本。公式4：利用某个基因在所有样本中的表达谱与某个特征向量基因ME表达谱的皮尔森相关性来衡量这个基因在该模块中的身份，即模块身份(module membership)，简称MM。使用公式5计算MM，其中ME^q表示第i个基因的表达谱，表示模块q的特征向量基因(ME)，表示了基因i在模块q中的身份，当则说明基因i不在模块q中，越接近+1或- 1，则说明基因i与模块q高度相关。正负号表示了基因i与模块q是正相关还是负相关。公式5：基因显著性(genesignificance)，简称GS，用来衡量基因与外部信息的关联程度，GS越高表示基因越具有生物学意义，GS＝0，说明这个基因不参与所研究的生物学问题。选择在各个样本中有变化同时又有预后显著性差异的基因(种子基因)的表达数据，使用R软件包WGCNA进行构建权重共表达网络，选择软阈值为5，筛选共表达模块。

5)共表达模块的富集分析：为观察各个共表达模块的功能，使用R软件包clusterProfiler对各个模块进行KEGG通路、GO富集分析，观察各个模块的功能。

6)各模块与癌症样本相关性分析：根据癌症样本的TNM Stage分期将晚期癌症样本定义为1，早期癌癌症样本定义为0，将性别男定义为1、女定义为0，以及对应样本的年龄，最终形成一个表型矩阵，计算每个模型与表型矩阵中各个因素的相关性，筛选出与各个因素相关的模块。

7)分析各个模块的基因表达谱与预后的关系：根据各个共表达模块中的基因的表达水平进行层次聚类分析，对各个样本进行分类，进一步分析分类后样本的预后差异。

8)模块的hub gene筛选：计算每个模块的特征向量基因(ME)与样本特征信息的皮尔森相关系数来确定关键模块。枢纽基因是一个模块中具有高连接度的一系列基因。WGCNA的一个目的就是找出感兴趣模块的枢纽基因。一般来说，相对于全局网络，子模块的枢纽基因更具有生物学意义。目前已经证明模块身份(MM)可以用来衡量一个基因在某个模块中的重要性，并且MM与模块的连接度有着正相关的联系。因此，可根据MM值来选取枢纽基因，若某个基因在一个特定的模块中|MM|值大于0.9，则把这个基因当做枢纽基因(hub gene)。

9)hub gene表达分析：通过分析hub gene在早期和晚期癌症样本中的表达差异，观察hub gene在肿瘤样本中的表达变化。

10)hub gene预后分析：分析hub gene高表达样本和低表达样本的预后差异，观察hub gene在肿瘤样本中的表达变化是否影响病人预后。

11)外部数据集验证：通过gepia在线工具定制化分析了hub gene在TCGA数据集中的表达变化及预后差异来验证hubgene的表达在疾病样本中的影响，通过oncopression在线工具分析hub gene在GEO数据集中的表达差异来验证hub gene在早期与晚期癌症中的表达变化。

与现有技术相比，本发明具有以下有益效果。

现有胃癌生物标志物筛选方法包括TaqMan低密度芯片(TLDA)分析、蛋白质芯片-飞行时间质谱技术、微列阵分析等。本发明采用加权基因共表达网络分析(WGCNA)以及KEGG通路、GO富集分析等分析方法。加权基因共表达网络分析(WGCNA)是一种高效、全面的高维数据分析方法，且其分析基因芯片数据的准确性和有效性已经得到证实。除此之外，本发明还通过外部数据集TCGA RNA-Seq数据集和GEO数据集来验证所得到的结果，进一步提高了结果的准确性。

根据上述方法，本发明分析了来自GEO数据集的GSE62254。结果表明，FERMT2 和MCAM两种hub gene与胃癌的发生及预后密切相关。相关研究表明，MCAM可以下调参与迁移和侵袭的胃癌相关基因的平面细胞极性通路，本发明在一定程度上证实了MCAM 与胃癌的关系。但目前有关FERMT2与胃癌的研究较少。本发明证实了FERMT2与胃癌进展、预后等相关关系，填补了目前研究的空白。将FERMT2应用于胃癌诊断和预后，能够节省患者治疗的时间和成本、提高诊断的准确性。进一步将FERMT2转化为试剂盒、检查试剂、基因芯片等应用，可更好地发挥其实用性。由此可见，本发明可在一定程度上实现了“个体化治疗”，同时推动了“精准化医疗”的发展。

附图说明

图1是模型构建的流程图。

图2是各个样本的相关性分析。

图3是聚类树状图分析、不同软阈值功率下的网络拓扑分析和模块-特征的相关性，其中A是聚类树状图；B,C是不同软阈值功率下的网络拓扑分析；D是模块-特征的相关性。

图4是4个模块富集到的KEGG Pathway的联系。

图5是turquoise、black模块的GO Molecular function富集结果。

图6是black模块和turquoise模块的的层次聚类分析以及分类后样本的预后差异结果以及两个模块的hub gene FERMT2和MCAM在早期和晚期病人中的表达差异分析。其中A、C图分别是black模块的的层次聚类分析以及分类后样本的预后差异结果；B、D图分别是turquoise模块的的层次聚类分析以及分类后样本的预后差异结果，聚类分析使用的是欧式距离聚类；E图是两个模块的hub gene FERMT2和MCAM在早期和晚期病人中的表达差异分析，定义StageIII和StageVI为晚期患者High，StageI和StageII为早期患者Low，使用Mann-Whitney test检验显著性差异。

图7是ERMT2的表达水平与胃癌预后之间的关系和根据FERMT2的表达水平按照中位数进行划分后样本的预后差异，其中A是FERMT2的表达水平与胃癌预后之间的关系 (横坐标表示样本，纵坐标表示表达水平和生存时间)；B是根据FERMT2的表达水平按照中位数进行划分后样本的预后差异。

图8是FERMT2在各个Stage阶段的表达差异分析和FERMT2表达谱预后差异分析，其中A是FERMT2在各个Stage阶段的表达差异分析；B是FERMT2表达谱预后差异分析。

图9是GEO数据集中StageI-IV FERMT2表达水平变化趋势。

下面结合附图和实施例详细描述本发明，以下所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

实施例一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。

1.从GSE62254数据集中得到300个有预后随访信息的样本，通过中位数标准化后进行样本间相关性聚类分析结果如图2所示。从图中可以看出，样本之间的表达相关性很高，但是也可以明显的看出这些样本中相关性可以分为两组，两组组内的相关性更高，这说明了这些样本存在着一定的异质性。选择相关性最高的一组样本作为本次研究的数据集，共得到 282个样本。进一步根据这些样本进行后续的分析，分析流程图如图1所示。

2.根据筛选条件从54675个探针中共得到了39673个在胃癌样本中变化较大的探针, 进一步的根据这些探针的表达水平做单因素生存分析，筛选出对样本预后有显著差异的探针共4865个见表1。

表1.预后差异最大的前20个基因

3.变化较大且有预后差异的基因的权重共表达网络构建：使用变化较大且有预后差异的基因进行网络的构建，使用的方法为R语言中的WGCNA软件包。研究表明共表达网络符合无尺度网络，即出现连接度为k的节点的对数log(k)与该节点出现的概率的对数 log(P(k))要负相关，且相关系数要大于0.8。为了确保网络为无尺度网络，选择β＝5(如图3B和3C所示)。下一步将表达矩阵转换成邻接矩阵，然后再将邻接矩阵转换成拓扑矩阵，基于TOM，使用average-linkage层次聚类法对基因进行聚类，按照混合动态剪切树的标准，并设置每个基因(lncRNA)网络模块最少的基因数目30。在使用动态剪切法在确定基因模块后，依次计算每个模块的特征向量值(eigengenes)，然后对模块进行聚类分析，将距离较近的模块合并成新的模块，设置height＝0.25。共得到了7个模块，如图3A所示，需要指出 grey模块是无法聚集到其它模块的基因集合，各个模块中的基因统计见表2，从中可以看出有4257个基因被分配到11个模块中。

表2.各模块对应基因统计结果

4.计算每个模块的ME与样本特征的皮尔森相关系数，相关系数越高说明这个模块越重要，如图3D所示。图3D中行表示每个模块的特征向量基因，列表示样本特征信息，从红色到绿色表示相关系数从高到低依次递减。每个小格子里的数字表示基因模块与相应特征的相关系数，括号中的数字表示P值。从图中可以得出brown模块与年龄最相关，yellow模块与癌症发展早期相关，green、black、turquoise三个模块都与晚期癌症相关。

5.使用R包clusterProfiler对每个模块中的基因做KEGG、GO富集分析：有4个模块富集到32个KEGG Pathway中，如图4所示，从图中可以看出不同的模块富集到不同的通路中，他们之间没有共同的Pathway，这暗示了这些模块各自独立的行使功能，进一步的发现与晚期癌症相关的三个模块中green并未有KEGGPathway和GO功能富集，这暗示了 green模块中的基因在晚期癌症的疾病发展中可能扮演的是伴随的角色，black模块富集到了 7个KEGG Pathway,其中有2个是癌症通路，另外最显著的Focal adhesion通路与癌症的转移相关；turquoise模块富集到的5个KEGGPathway，其中有一个是癌症通路，这暗示了turquoise、black两个模块都可能与癌症的发生发展密切相关。

6. turquoise、black模块的GO Molecular function富集分析：为观察turquoise、black 模块的基因在分子水平上的功能，使用clusterProfiler对这两个模块的基因做GO Molecular function富集分析，如图5所示，从中可以看出turquoise模块的基因主要与分子结合、转录因子活性、细胞粘附结合等相关，black模块的基因主要与分子结合、生长因子、细胞粘附结合、跨膜运输等相关，这提示这两个模块在分子水平上存在一定的联系。

7. turquoise、black共表达模块中基因的聚类分析：根据共表达模块的基因表达谱进行层次聚类分析，对样本进行分类，进一步分析两类样本的预后差异如图6A、6B、6C、6D所示，从图中可以看出两个共表达模块都能将样本显著的区分开，同时分类之后样本的预后差异也具有显著的差异。

8. turquoise、black共表达模块hubgene的筛选：计算turquoise、black模块中的基因与各自模块特征向量基因的相关性，选择相关性大于0.9的基因作为hub gene，最终得到满足条件的hubgene。这15个基因如表3所示，从中可以两个模块各自只得到一个基因分别为 FERMT2和MCAM，进一步的将样本分成HighStage和Low Stage两组分析两个hubgene在高低Stage中的表达差异，如图6E所示，从图中可以看出他们在高Stage中显著高表达，这提示了这两个基因可能与癌症晚期的发展有关。

表3. hub genes列表(R：相关系数)

9.进一步通过文献挖掘发现MCAM基因多次被报道与肿瘤的发生发展相关、不良预后和转移相关，包括黑素瘤，前列腺癌，卵巢癌，胃癌等。例如，MCAM可以下调参与迁移和侵袭的胃癌相关基因的平面细胞极性通路；高血管MCAM表达与肾细胞癌患者存活率低、转移和局部侵袭的增加之间存在显著联系等；而FERMT2确鲜有报道与肿瘤相关。将样本按照FERMT2表达水平进行排秩，同时根据表达中位数对样本进行分类，观察两类样本的预后差异如图7所示。从图中可以看出FERMT2对样本预后有着非常显著的影响，这提示了FERMT2可能是胃癌晚期的一个潜在的标志物。

10.为进一步验证FERMT2基因在胃癌发生发展中的表达变化，使用gepia(http://gepia.cancer-pku.cn/)在线工具分析TCGA RNA-Seq数据集，分析FERMT2在早期与晚期病人中也存在着显著的表达变化，如图8A所示。进一步根据FERMT2表达将上四分位定义为高风险组，下四分位数为低风险组，分析两组的预后差异，如图8B所示，从图中可以看出他们也存在显著的预后差异。

11. GEO表达谱数据验证：为进一步验证FERMT2基因在胃癌发生发展中的表达变化，使用oncopression(http://www.oncopression.com)在线工具分析胃癌在各个Stage下的标本表达数据的差异，如图9所示，从图中可以看出FERMT2在早期(StageI)中表达水平明显低于晚期癌症组织(StageIV)。

Claims

1.一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法，其特征在于，应用此方法筛选出的潜在生物标志物为FERMT2。

2.一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法，具体包括以下步骤：

1）GEO数据下载和预处理：从GEO数据库下载包括癌症样本以及对应的临床随访信息的胃癌芯片数据，数据的预处理如下：下载数据集为log10-transformed RMA signalintensity，对每个样本进行分位数标准化，进一步对每个样本进行聚类分析，筛选出表达谱较为一致的样本作为训练集样本；

2）筛选变化较大的基因：筛选变化较大的基因，如A基因符合筛选规则如下：①A基因在所有样本中的表达水平中位数高于所有基因在各个样本中表达水平的中位数的20%；②A基因在各个样本中表达水平的方差高于所有基因在各个样本中表达水平的方差的20%；

3）单因素生存分析：为进一步观察这些在样本中变化较大的基因与预后的关系，使用R软件包survival对这些基因进行单因素生存分析，筛选出预后显著性p值小于0.01的基因作为种子基因；

4）基因与lncRNA共表达网络构建：WGCNA是使用基因表达数据来构建无尺度网络的系统生物学方法，首先构建基因表达相似性矩阵，即计算两两基因之间皮尔森相关系数的绝对值，使用公式1计算基因i和基因j之间的皮尔森相关系数，其中i和j分别是第i个基因和第j个基因的表达量，公式1：

然后使用公式2将基因表达相似性矩阵转换成邻接矩阵，网络类型为signed，其中β为软阈值，其实就是将每对基因的皮尔森相关系数β次方，这一步能够从指数级别强化强相关性和减弱弱相关性，公式2：

下一步使用公式3将邻接矩阵转换成拓扑矩阵，拓扑重叠(topological overlapmeasure, TOM)用来描述基因之间的关联程度，公式3：

1-TOM表示基因i和基因j之间的相异程度，使用1-TOM作为距离对基因进行层次聚类，然后使用动态剪切树的方法进行模块的识别，每个模块中最具有代表性的基因称为特征向量基因简称ME，它代表了该模块内基因表达的整体水平，它是每个模块中的第一主成分，使用公式4来计算ME，其中i表示模块q中的基因，l表示模块q中的芯片样本，公式4：

利用某个基因在所有样本中的表达谱与某个特征向量基因ME表达谱的皮尔森相关性来衡量这个基因在该模块中的身份，即模块身份简称MM，使用公式5计算MM，其中表示第i个基因的表达谱，表示模块q的特征向量基因，表示了基因i在模块q中的身份，当= 0，则说明基因i不在模块q中，越接近+1或−1，则说明基因i与模块q高度相关，正负号表示了基因i与模块q是正相关还是负相关，公式5：

基因显著性简称GS，用来衡量基因与外部信息的关联程度，GS越高表示基因越具有生物学意义，GS =0，说明这个基因不参与所研究的生物学问题；选择在各个样本中有变化同时又有预后显著性差异的基因（种子基因）的表达数据，使用R软件包WGCNA进行构建权重共表达网络，选择软阈值为5，筛选共表达模块；

5）共表达模块的富集分析：为了观察各个共表达模块的功能，使用R软件包clusterProfiler对各个模块进行KEGG通路、GO富集分析，观察各个模块的功能；

6）各模块与癌症样本相关性分析：根据癌症样本的TNM Stage分期将晚期癌症样本定义为1，早期癌癌症样本定义为0，将性别男定义为1、女定义为0，以及对应样本的年龄，最终形成一个表型矩阵，计算每个模型与表型矩阵中各个因素的相关性，筛选出与各个因素相关的模块；

7）分析各个模块的基因表达谱与预后的关系：根据各个共表达模块中的基因的表达水平进行层次聚类分析，对各个样本进行分类，进一步分析分类后样本的预后差异；

8）模块的hub gene筛选：计算每个模块的特征向量基因与样本特征信息的皮尔森相关系数来确定关键模块，枢纽基因是一个模块中具有高连接度的一系列基因，WGCNA的一个目的就是找出感兴趣模块的枢纽基因，一般来说相对于全局网络，子模块的枢纽基因更具有生物学意义，目前已经证明模块身份可以用来衡量一个基因在某个模块中的重要性，并且MM与模块的连接度有着正相关的联系，因此可根据MM值来选取枢纽基因，若某个基因在一个特定的模块中|MM|值大于0.9，则把这个基因当做枢纽基因；

9）hub gene表达分析：通过分析hub gene在早期和晚期癌症样本中的表达差异，观察hub gene在肿瘤样本中的表达变化；

10）hub gene预后分析：分析hub gene高表达样本和低表达样本的预后差异，观察hubgene在肿瘤样本中的表达变化是否影响病人预后；

11）外部数据集验证：通过gepia在线工具定制化分析了hub gene 在TCGA数据集中的表达变化及预后差异来验证hubgene的表达在疾病样本中的影响，通过oncopression在线工具分析hub gene在GEO数据集中的表达差异来验证hub gene在早期与晚期癌症中的表达变化。