CN109872776B - 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 - Google Patents

一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 Download PDF

Info

Publication number
CN109872776B
CN109872776B CN201910114155.0A CN201910114155A CN109872776B CN 109872776 B CN109872776 B CN 109872776B CN 201910114155 A CN201910114155 A CN 201910114155A CN 109872776 B CN109872776 B CN 109872776B
Authority
CN
China
Prior art keywords
gene
expression
module
genes
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910114155.0A
Other languages
English (en)
Other versions
CN109872776A (zh
Inventor
王哲
解夕黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Cancer Hospital and Institute
Original Assignee
Liaoning Cancer Hospital and Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Cancer Hospital and Institute filed Critical Liaoning Cancer Hospital and Institute
Priority to CN201910114155.0A priority Critical patent/CN109872776B/zh
Publication of CN109872776A publication Critical patent/CN109872776A/zh
Application granted granted Critical
Publication of CN109872776B publication Critical patent/CN109872776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物医学领域,具体涉及一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。本发明采用加权基因共表达网络分析(WGCNA)以及KEGG通路、GO富集分析等分析方法。加权基因共表达网络分析(WGCNA)是一种高效、全面的高维数据分析方法,且其分析基因芯片数据的准确性和有效性已经得到证实。所述的应用本发明方法筛选出的潜在生物标志物为FERMT2。本发明为胃癌的诊断、治疗及预后提供了新方向,促进了“个体化治疗”的发展。

Description

一种基于加权基因共表达网络分析对胃癌潜在生物标志物的 筛选方法及其应用
技术领域
本发明涉及生物医学领域,具体涉及一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。
背景技术
胃癌(gastric cancer)是最常见的恶性肿瘤之一,发病率及死亡率居高不下,目前中国仍有许多进展期胃癌患者,也是世界上胃癌高发的国家之一。因此早期诊断、合理评估其预后并适时适度干预十分重要。目前研究揭示:胃癌是一种基因病,是由多种癌基因抗癌基因共同参与、多阶段多途径协同,使胃黏膜逐步发展到癌前病变,再发展到胃癌的一个演变过程。正常胃黏膜到癌前变过程及癌前变至胃癌过程皆存在特征性的差异表达基因。
分子病理学将分子杂交技术与组织形态学检测相融合,随着免疫组织化学及分子生物学的发展,胃癌的病理与免疫学及分子生物学研究之间越来越密不可分。目前已探索了许多与胃癌相关的基因及其蛋白质产物,早期发现这些基因及标志物为探讨胃癌发病机理开辟了新途径,更加能够揭示肿瘤组织的生长活性在肿瘤生长、浸润和转移方面的作用,从而更加准确地指导临床治疗、判断预后。
随着高通量数据集的出现,基因表达谱已被证实是一种有前途的肿瘤分类和预测癌症预后的工具。计算方法的飞速发展,也使得以网络为中心的方法更适合于获取复杂的信息,例如基因共表达网络、基因调控网络,蛋白质-蛋白质相互作用网络、信号转导网络和代谢网络等。其中,加权基因共表达网络分析(WGCNA)是一种高效、全面的高维数据分析方法,已被用于分析脑癌、酵母细胞周期、小鼠遗传学、灵长类动物脑组织、糖尿病、慢性疲劳患者和植物的基因表达数据。
目前胃镜检查是胃癌诊断的最有价值的方法,但由于其具有侵入性,限制了受检人数。胃癌的组织学和病理学分期是最终预后的金标准,然而它仅揭示个体患者疾病状态的有限信息。除此之外,它还受限于具有足够统计功能的合适计算方法的有限可用性以及具有相似组织病理学外观的患者之间的异质性。此外,胃癌危险因素复杂,使用单因素诊断胃癌准确性较低。综上所述,积极寻找新型潜在的生物标志物或基因标记,不仅能够提高胃癌诊断的准确性,还能有效预测胃癌的预后;是在科学技术发展的大背景下,胃癌研究的主流方向;在一定程度上推动了“精准化医疗”的发展。
发明内容
鉴于现有技术存在的问题,本发明的目的在于提供一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。所述的应用本发明方法筛选出的潜在生物标志物为FERMT2。本发明为胃癌的诊断、治疗及预后提供了新方向,促进了“个体化治疗”的发展。
为了实现上述目的,本发明采用以下技术方案。
一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法,应用此方法筛选出的潜在生物标志物为FERMT2。
一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用,具体包括以下步骤。
1)GEO数据下载和预处理:从GEO数据库下载包括癌症样本以及对应的临床随访信息的胃癌芯片数据。数据的预处理如下:下载数据集为log10-transformed RMA signalintensity,对每个样本进行分位数标准化(Using a normalization based uponquantiles),进一步对每个样本进行聚类分析,筛选出表达谱较为一致的样本作为训练集样本。
2)筛选变化较大的基因:筛选变化较大的基因,如A基因符合筛选规则如下:①A基因在所有样本中的表达水平中位数高于所有基因在各个样本中表达水平的中位数的20%。②A基因在各个样本中表达水平的方差高于所有基因在各个样本中表达水平的方差的20%。
3)单因素生存分析:为了进一步观察这些在样本中变化较大的基因与预后的关系,使用R软件包survival对这些基因进行单因素生存分析,筛选出预后显著性p值小于0.01的基因作为种子基因。
4)基因与lncRNA共表达网络构建:WGCNA是使用基因表达数据来构建无尺度网络的系统生物学方法。其基本思路如下。首先,构建基因表达相似性矩阵,即计算两两基因之间皮尔森相关系数的绝对值,使用公式1计算基因i和基因j之间的皮尔森相关系数,其中i和j分别是第i个基因和第j个基因的表达量。公式1:
Figure DEST_PATH_IMAGE001
然后使用公式2将基因表达相似性矩阵转换成邻接矩阵,网络类型为signed。其中β为软阈值,其实就是将每对基因的皮尔森相关系数β次方。这一步能够从指数级别强化强相关性和减弱弱相关性。公式2:
Figure DEST_PATH_IMAGE002
下一步使用公式3将邻接矩阵转换成拓扑矩阵,拓扑重叠(topological overlap measure, TOM)用来描述基因之间的关联程度。公式3:
Figure DEST_PATH_IMAGE003
1-TOM表示基因i和基因j之间的相异程度。使用1-TOM作为距离对基因进行层次聚类,然后使用动态剪切树的方法进行模块的识别。每个模块中最具有代表性的基因称为特征向量基因,简称ME,它代表了该模块内基因表达的整体水平,它是每个模块中的第一主成分,使用公式4来计算ME,其中i表示模块q中的基因,l表示模块q中的芯片样本。公式4: />
Figure DEST_PATH_IMAGE004
利用某个基因在所有样本中的表达谱与某个特征向量基因ME表达谱的皮尔森相关性来衡量这个基因在该模块中的身份,即模块身份(modulemembership),简称MM。使用公式5计算MM,其中/>
Figure DEST_PATH_IMAGE005
表示第i个基因的表达谱,表示模块q的特征向量基因(ME),/>
Figure DEST_PATH_IMAGE006
表示了基因i在模块q中的身份,当/>
Figure 22381DEST_PATH_IMAGE006
= 0,则说明基因i不在模块q中,/>
Figure 673942DEST_PATH_IMAGE006
越接近+1或−1,则说明基因i与模块q高度相关。正负号表示了基因i与模块q是正相关还是负相关。公式5:/>
Figure DEST_PATH_IMAGE007
基因显著性(gene significance),简称GS,用来衡量基因与外部信息的关联程度,GS越高表示基因越具有生物学意义,GS =0,说明这个基因不参与所研究的生物学问题。选择在各个样本中有变化同时又有预后显著性差异的基因(种子基因)的表达数据,使用R软件包WGCNA进行构建权重共表达网络,选择软阈值为5,筛选共表达模块。
5)共表达模块的富集分析:为观察各个共表达模块的功能,使用R软件包clusterProfiler对各个模块进行KEGG通路、GO富集分析,观察各个模块的功能。
6)各模块与癌症样本相关性分析:根据癌症样本的TNM Stage分期将晚期癌症样本定义为1,早期癌癌症样本定义为0,将性别男定义为1、女定义为0,以及对应样本的年龄,最终形成一个表型矩阵,计算每个模型与表型矩阵中各个因素的相关性,筛选出与各个因素相关的模块。
7)分析各个模块的基因表达谱与预后的关系:根据各个共表达模块中的基因的表达水平进行层次聚类分析,对各个样本进行分类,进一步分析分类后样本的预后差异。
8)模块的hub gene筛选:计算每个模块的特征向量基因(ME)与样本特征信息的皮尔森相关系数来确定关键模块。枢纽基因是一个模块中具有高连接度的一系列基因。WGCNA的一个目的就是找出感兴趣模块的枢纽基因。一般来说,相对于全局网络,子模块的枢纽基因更具有生物学意义。目前已经证明模块身份(MM)可以用来衡量一个基因在某个模块中的重要性,并且MM与模块的连接度有着正相关的联系。因此,可根据MM值来选取枢纽基因,若某个基因在一个特定的模块中|MM|值大于0.9,则把这个基因当做枢纽基因(hub gene)。
9)hub gene表达分析:通过分析hub gene在早期和晚期癌症样本中的表达差异,观察hub gene在肿瘤样本中的表达变化。
10)hub gene预后分析:分析hub gene高表达样本和低表达样本的预后差异,观察hub gene在肿瘤样本中的表达变化是否影响病人预后。
11)外部数据集验证:通过gepia在线工具定制化分析了hub gene 在TCGA数据集中的表达变化及预后差异来验证hubgene的表达在疾病样本中的影响,通过oncopression在线工具分析hub gene在GEO数据集中的表达差异来验证hub gene在早期与晚期癌症中的表达变化。
与现有技术相比,本发明具有以下有益效果。
现有胃癌生物标志物筛选方法包括TaqMan低密度芯片(TLDA)分析、蛋白质芯片-飞行时间质谱技术、微列阵分析等。本发明采用加权基因共表达网络分析(WGCNA)以及KEGG通路、GO富集分析等分析方法。加权基因共表达网络分析(WGCNA)是一种高效、全面的高维数据分析方法,且其分析基因芯片数据的准确性和有效性已经得到证实。除此之外,本发明还通过外部数据集TCGA RNA-Seq数据集和GEO数据集来验证所得到的结果,进一步提高了结果的准确性。
根据上述方法,本发明分析了来自GEO数据集的GSE62254。结果表明,FERMT2和MCAM两种hub gene与胃癌的发生及预后密切相关。相关研究表明,MCAM可以下调参与迁移和侵袭的胃癌相关基因的平面细胞极性通路,本发明在一定程度上证实了MCAM与胃癌的关系。但目前有关FERMT2与胃癌的研究较少。本发明证实了FERMT2与胃癌进展、预后等相关关系,填补了目前研究的空白。将FERMT2应用于胃癌诊断和预后,能够节省患者治疗的时间和成本、提高诊断的准确性。进一步将FERMT2转化为试剂盒、检查试剂、基因芯片等应用,可更好地发挥其实用性。由此可见,本发明可在一定程度上实现了“个体化治疗”,同时推动了“精准化医疗”的发展。
附图说明
图1是模型构建的流程图。
图2是各个样本的相关性分析。
图3是聚类树状图分析、不同软阈值功率下的网络拓扑分析和模块-特征的相关性,其中A是聚类树状图; B,C是不同软阈值功率下的网络拓扑分析;D是模块-特征的相关性。
图4是4个模块富集到的KEGG Pathway的联系。
图5是turquoise、black模块的GO Molecular function富集结果。
图6是black模块和turquoise模块的的层次聚类分析以及分类后样本的预后差异结果以及两个模块的hub gene FERMT2和MCAM在早期和晚期病人中的表达差异分析。其中A、C图分别是black模块的的层次聚类分析以及分类后样本的预后差异结果;B、D图分别是turquoise模块的的层次聚类分析以及分类后样本的预后差异结果,聚类分析使用的是欧式距离聚类;E图是两个模块的hub gene FERMT2和MCAM在早期和晚期病人中的表达差异分析,定义StageIII和StageVI为晚期患者High,StageI和StageII为早期患者Low,使用Mann-Whitney test检验显著性差异。
图7是ERMT2的表达水平与胃癌预后之间的关系和根据FERMT2的表达水平按照中位数进行划分后样本的预后差异,其中A是FERMT2的表达水平与胃癌预后之间的关系(横坐标表示样本,纵坐标表示表达水平和生存时间);B是根据FERMT2的表达水平按照中位数进行划分后样本的预后差异。
图8是FERMT2在各个Stage阶段的表达差异分析和FERMT2表达谱预后差异分析,其中A是FERMT2在各个Stage阶段的表达差异分析;B是FERMT2表达谱预后差异分析。
图9是GEO数据集中StageI-IV FERMT2表达水平变化趋势。
下面结合附图和实施例详细描述本发明,以下所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
实施例 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用。
1. 从GSE62254数据集中得到300个有预后随访信息的样本,通过中位数标准化后进行样本间相关性聚类分析结果如图2所示。从图中可以看出,样本之间的表达相关性很高,但是也可以明显的看出这些样本中相关性可以分为两组,两组组内的相关性更高,这说明了这些样本存在着一定的异质性。选择相关性最高的一组样本作为本次研究的数据集,共得到282个样本。进一步根据这些样本进行后续的分析,分析流程图如图1所示。
2. 根据筛选条件从54675个探针中共得到了39673个在胃癌样本中变化较大的探针,进一步的根据这些探针的表达水平做单因素生存分析,筛选出对样本预后有显著差异的探针共4865个见表1。
Figure DEST_PATH_IMAGE008
3. 变化较大且有预后差异的基因的权重共表达网络构建:使用变化较大且有预后差异的基因进行网络的构建,使用的方法为R语言中的WGCNA软件包。研究表明共表达网络符合无尺度网络,即出现连接度为k的节点的对数log(k)与该节点出现的概率的对数log(P(k))要负相关,且相关系数要大于0.8。为了确保网络为无尺度网络,选择β= 5(如图3B和3C所示)。下一步将表达矩阵转换成邻接矩阵,然后再将邻接矩阵转换成拓扑矩阵,基于TOM,使用average-linkage层次聚类法对基因进行聚类,按照混合动态剪切树的标准,并设置每个基因(lncRNA)网络模块最少的基因数目30。在使用动态剪切法在确定基因模块后,依次计算每个模块的特征向量值(eigengenes),然后对模块进行聚类分析,将距离较近的模块合并成新的模块,设置height=0.25。共得到了7个模块,如图3A所示,需要指出grey模块是无法聚集到其它模块的基因集合,各个模块中的基因统计见表2,从中可以看出有4257个基因被分配到11个模块中。
Figure DEST_PATH_IMAGE009
4.计算每个模块的ME与样本特征的皮尔森相关系数,相关系数越高说明这个模块越重要,如图3D所示。图3D中行表示每个模块的特征向量基因,列表示样本特征信息,从红色到绿色表示相关系数从高到低依次递减。每个小格子里的数字表示基因模块与相应特征的相关系数,括号中的数字表示P值。从图中可以得出brown模块与年龄最相关,yellow模块与癌症发展早期相关,green、black、turquoise三个模块都与晚期癌症相关。
5. 使用R包clusterProfiler对每个模块中的基因做KEGG、GO富集分析:有4个模块富集到32个KEGG Pathway中,如图4所示,从图中可以看出不同的模块富集到不同的通路中,他们之间没有共同的Pathway,这暗示了这些模块各自独立的行使功能,进一步的发现与晚期癌症相关的三个模块中green并未有KEGGPathway和GO功能富集,这暗示了green模块中的基因在晚期癌症的疾病发展中可能扮演的是伴随的角色,black模块富集到了7个KEGG Pathway,其中有2个是癌症通路,另外最显著的Focal adhesion通路与癌症的转移相关;turquoise模块富集到的5个KEGGPathway,其中有一个是癌症通路,这暗示了turquoise、black两个模块都可能与癌症的发生发展密切相关。
6. turquoise、black模块的GO Molecular function富集分析:为观察turquoise、black模块的基因在分子水平上的功能,使用clusterProfiler对这两个模块的基因做GO Molecular function富集分析,如图 5所示,从中可以看出turquoise模块的基因主要与分子结合、转录因子活性、细胞粘附结合等相关,black模块的基因主要与分子结合、生长因子、细胞粘附结合、跨膜运输等相关,这提示这两个模块在分子水平上存在一定的联系。
7. turquoise、black共表达模块中基因的聚类分析:根据共表达模块的基因表达谱进行层次聚类分析,对样本进行分类,进一步分析两类样本的预后差异如图6A、6B、6C、6D所示,从图中可以看出两个共表达模块都能将样本显著的区分开,同时分类之后样本的预后差异也具有显著的差异。
8. turquoise、black共表达模块hubgene的筛选:计算turquoise、black模块中的基因与各自模块特征向量基因的相关性,选择相关性大于0.9的基因作为hub gene,最终得到满足条件的hubgene。这15个基因如表3所示,从中可以两个模块各自只得到一个基因分别为FERMT2和MCAM,进一步的将样本分成HighStage和Low Stage两组分析两个hubgene在高低Stage中的表达差异,如图6E所示,从图中可以看出他们在高Stage中显著高表达,这提示了这两个基因可能与癌症晚期的发展有关。
Figure DEST_PATH_IMAGE010
9. 进一步通过文献挖掘发现MCAM基因多次被报道与肿瘤的发生发展相关、不良预后和转移相关,包括黑素瘤,前列腺癌,卵巢癌,胃癌等。例如,MCAM可以下调参与迁移和侵袭的胃癌相关基因的平面细胞极性通路;高血管MCAM表达与肾细胞癌患者存活率低、转移和局部侵袭的增加之间存在显著联系等;而FERMT2确鲜有报道与肿瘤相关。将样本按照FERMT2表达水平进行排秩,同时根据表达中位数对样本进行分类,观察两类样本的预后差异如图7所示。从图中可以看出FERMT2对样本预后有着非常显著的影响,这提示了FERMT2可能是胃癌晚期的一个潜在的标志物。
10. 为进一步验证FERMT2基因在胃癌发生发展中的表达变化,使用gepia(http://gepia.cancer-pku.cn/)在线工具分析TCGA RNA-Seq数据集,分析FERMT2在早期与晚期病人中也存在着显著的表达变化,如图8A所示。进一步根据FERMT2表达将上四分位定义为高风险组,下四分位数为低风险组,分析两组的预后差异,如图8B所示,从图中可以看出他们也存在显著的预后差异。
11. GEO表达谱数据验证:为进一步验证FERMT2基因在胃癌发生发展中的表达变化,使用oncopression(http://www.oncopression.com)在线工具分析胃癌在各个Stage下的标本表达数据的差异,如图9所示,从图中可以看出FERMT2在早期(StageI)中表达水平明显低于晚期癌症组织(StageIV)。

Claims (1)

1.一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法,具体包括以下步骤:
1)GEO数据下载和预处理:从GEO数据库下载包括癌症样本以及对应的临床随访信息的胃癌芯片数据,数据的预处理如下:下载数据集为log10-transformed RMA signalintensity,对每个样本进行分位数标准化,进一步对每个样本进行聚类分析,筛选出表达谱较为一致的样本作为训练集样本;
2)筛选变化较大的基因:筛选变化较大的基因,筛选规则如下:①基因在所有样本中的表达水平中位数高于所有基因在各个样本中表达水平的中位数的20%;②基因在各个样本中表达水平的方差高于所有基因在各个样本中表达水平的方差的20%;
3)单因素生存分析:为进一步观察这些在样本中变化较大的基因与预后的关系,使用R软件包survival对这些基因进行单因素生存分析,筛选出预后显著性p值小于0.01的基因作为种子基因;
4)基因与lncRNA共表达网络构建:WGCNA是使用基因表达数据来构建无尺度网络的系统生物学方法,首先构建基因表达相似性矩阵,即计算两两基因之间皮尔森相关系数的绝对值,使用公式1计算基因i和基因j之间的皮尔森相关系数,其中xi和yj分别是第i个基因和第j个基因的表达量,公式1:
Figure QLYQS_1
然后使用公式2将基因表达相似性矩阵转换成邻接矩阵,网络类型为signed,其中β为软阈值,其实就是将每对基因的皮尔森相关系数β次方,这一步能够从指数级别强化强相关性和减弱弱相关性,公式2:
Figure QLYQS_2
下一步使用公式3将邻接矩阵转换成拓扑矩阵,拓扑重叠TOM用来描述基因之间的关联程度,公式3:
Figure QLYQS_3
1-TOM表示基因i和基因j之间的相异程度,使用1-TOM作为距离对基因进行层次聚类,然后使用动态剪切树的方法进行模块的识别,每个模块中最具有代表性的基因称为特征向量基因,简称ME,它代表了该模块内基因表达的整体水平,它是每个模块中的第一主成分,使用公式4来计算ME,其中i表示模块q中的基因,l表示模块q中的芯片样本,公式4:
Figure QLYQS_4
利用某个基因在所有样本中的表达谱与某个特征向量基因ME表达谱的皮尔森相关性来衡量这个基因在该模块中的身份,即模块身份简称MM,使用公式5计算MM,其中
Figure QLYQS_5
表示第i个基因的表达谱,表示模块q的特征向量基因,/>
Figure QLYQS_6
表示了基因i在模块q中的身份,当
Figure QLYQS_7
= 0,则说明基因i不在模块q中,/>
Figure QLYQS_8
越接近+1或−1,则说明基因i与模块q高度相关,正负号表示了基因i与模块q是正相关还是负相关,公式5:/>
Figure QLYQS_9
基因显著性简称GS,用来衡量基因与外部信息的关联程度,GS越高表示基因越具有生物学意义,GS =0,说明这个基因不参与所研究的生物学问题;选择在各个样本中有变化同时又有预后显著性差异的种子基因的表达数据,使用R软件包WGCNA进行构建权重共表达网络,选择软阈值为5,筛选共表达模块;
5)共表达模块的富集分析:为了观察各个共表达模块的功能,使用R软件包clusterProfiler对各个模块进行KEGG通路、GO富集分析,观察各个模块的功能;
6)各模块与癌症样本相关性分析:根据癌症样本的TNM Stage分期将晚期癌症样本定义为1,早期癌癌症样本定义为0,将性别男定义为1、女定义为0,以及对应样本的年龄,最终形成一个表型矩阵,计算每个模型与表型矩阵中各个因素的相关性,筛选出与各个因素相关的模块;
7)分析各个模块的基因表达谱与预后的关系:根据各个共表达模块中的基因的表达水平进行层次聚类分析,对各个样本进行分类,进一步分析分类后样本的预后差异;
8)模块的hub gene筛选:计算每个模块的特征向量基因与样本特征信息的皮尔森相关系数来确定关键模块,枢纽基因是一个模块中具有高连接度的一系列基因,WGCNA的一个目的就是找出感兴趣模块的枢纽基因,模块身份可以用来衡量一个基因在某个模块中的重要性,并且MM与模块的连接度有着正相关的联系,因此可根据MM值来选取枢纽基因,若某个基因在一个特定的模块中|MM|值大于0.9,则把这个基因当做枢纽基因;
9)hub gene表达分析:通过分析hub gene在早期和晚期癌症样本中的表达差异,观察hub gene在肿瘤样本中的表达变化;
10)hub gene预后分析:分析hub gene高表达样本和低表达样本的预后差异,观察hubgene在肿瘤样本中的表达变化是否影响病人预后;
11)外部数据集验证:通过gepia在线工具定制化分析了hub gene 在TCGA数据集中的表达变化及预后差异来验证hubgene的表达在疾病样本中的影响,通过oncopression在线工具分析hub gene在GEO数据集中的表达差异来验证hub gene在早期与晚期癌症中的表达变化。
CN201910114155.0A 2019-02-14 2019-02-14 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 Active CN109872776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910114155.0A CN109872776B (zh) 2019-02-14 2019-02-14 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910114155.0A CN109872776B (zh) 2019-02-14 2019-02-14 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用

Publications (2)

Publication Number Publication Date
CN109872776A CN109872776A (zh) 2019-06-11
CN109872776B true CN109872776B (zh) 2023-06-09

Family

ID=66918752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910114155.0A Active CN109872776B (zh) 2019-02-14 2019-02-14 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用

Country Status (1)

Country Link
CN (1) CN109872776B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556158B (zh) * 2019-08-30 2022-02-15 山西农业大学 抗心肌纤维化药物的筛选方法
CN110797083B (zh) * 2019-09-18 2023-04-18 中南大学 基于多网络的生物标志物识别方法
CN110910958B (zh) * 2019-10-15 2024-08-09 平安科技(深圳)有限公司 基因定位方法、装置、计算机设备及存储介质
CN112614588A (zh) * 2020-12-28 2021-04-06 吉林大学 肿瘤驱动基因识别方法及装置
CN116805509A (zh) * 2023-05-25 2023-09-26 佳木斯大学 结直肠癌免疫治疗预测标志物的构建方法及应用
CN116453594B (zh) * 2023-06-15 2023-11-21 北京望石智慧科技有限公司 基因共表达状态的量化分析方法及装置、设备和介质
CN117912570B (zh) * 2024-03-19 2024-05-14 北京科技大学 一种基于基因共表达网络的分类特征确定方法及系统
CN118398215A (zh) * 2024-06-24 2024-07-26 安徽大学 头颈鳞状细胞癌的放疗敏感性预测方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014018774A1 (en) * 2012-07-26 2014-01-30 The Regents Of The University Of California Screening, diagnosis and prognosis of autism and other developmental disorders
CN107169497A (zh) * 2017-04-14 2017-09-15 中国科学院苏州生物医学工程技术研究所 一种基于基因影像学的肿瘤影像标记物提取方法
CN107992720A (zh) * 2017-12-14 2018-05-04 浙江工业大学 基于共表达网络的癌症靶向标志物测绘方法
CN108504555A (zh) * 2018-04-16 2018-09-07 清华大学 鉴别及评价肿瘤进展的装置和方法
WO2018199589A1 (ko) * 2017-04-24 2018-11-01 (주) 노보믹스 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014018774A1 (en) * 2012-07-26 2014-01-30 The Regents Of The University Of California Screening, diagnosis and prognosis of autism and other developmental disorders
CN104662173A (zh) * 2012-07-26 2015-05-27 加利福尼亚大学董事会 自闭症和其它发育障碍的筛查、诊断和预后
CN107169497A (zh) * 2017-04-14 2017-09-15 中国科学院苏州生物医学工程技术研究所 一种基于基因影像学的肿瘤影像标记物提取方法
WO2018199589A1 (ko) * 2017-04-24 2018-11-01 (주) 노보믹스 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템
CN107992720A (zh) * 2017-12-14 2018-05-04 浙江工业大学 基于共表达网络的癌症靶向标志物测绘方法
CN108504555A (zh) * 2018-04-16 2018-09-07 清华大学 鉴别及评价肿瘤进展的装置和方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Genome-wide Analyses on Single Disease Samples for Potential Biomarkers and Biological Features of Molecular Subtypes: A Case Study in Gastric Cancer;Wei Zeng等;《《International Journal of Biological Sciences》》;20180522;第833-842页 *
共表达网络分析方法及其在生物医药领域中的应用;郭昌等;《高师理科学刊》;20180130(第01期);全文 *
基于数据挖掘分析PTGER3在肠型胃癌中的表达及临床意义;张昱等;《现代肿瘤医学》;20180502(第11期);全文 *
基于癌症基因组图谱数据库的结直肠腺癌加权基因共表达网络的构建与分析;卞承玲等;《海军医学杂志》;20180928(第05期);全文 *
胃癌中IBSP基因表达及预后的生物信息学分析;孙灯众等;《重庆医科大学学报》(第09期);全文 *

Also Published As

Publication number Publication date
CN109872776A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109872776B (zh) 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN109872772B (zh) 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法
CN112048559B (zh) 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用
CN111128299B (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
CN113140258B (zh) 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法
US20200219587A1 (en) Systems and methods for using fragment lengths as a predictor of cancer
Karim et al. OncoNetExplainer: explainable predictions of cancer types based on gene expression data
Hu et al. Classifying the multi-omics data of gastric cancer using a deep feature selection method
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
CN109859796B (zh) 一种关于胃癌的dna甲基化谱的降维分析方法
CN115375640A (zh) 一种肿瘤异质性识别方法、装置、电子设备、存储介质
CN112837744A (zh) 一种前列腺癌预后显著相关ceRNA调控网络的构建方法
CN113903398A (zh) 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质
CN110331197A (zh) lncRNA在制备预测头颈鳞状细胞癌预后的产品中的应用
CN114203256A (zh) 基于微生物丰度的mibc分型及预后预测模型构建方法
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
US20180100199A1 (en) Method for determining prognosis of breast cancer patient by using gene expression data
TW202121223A (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
KR20200109544A (ko) 공통 유전자 추출에 의한 다중 암 분류 방법
CN115881296B (zh) 一种甲状腺乳头状癌(ptc)风险辅助分层系统
CN110111890A (zh) 一种基于基因测序技术的个体精准养生方法
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
CN114496097A (zh) 一种胃癌代谢基因预后预测方法和装置
CN110751983A (zh) 一种筛选特征mRNA用于诊断早期肺癌的方法
Ghai et al. Proximity measurement technique for gene expression data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant