CN110428866A

CN110428866A - 基于网络融合多组学数据的癌症相关通路识别方法

Info

Publication number: CN110428866A
Application number: CN201910666306.3A
Authority: CN
Inventors: 李�杰; 张巧生; 王亚东
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-08

Abstract

本发明提出了基于网络融合多组学数据的癌症相关通路识别方法，属于计算机应用技术生物信息学技术领域。所述方法首先基于基因表达数据进行基因层次上的统计分析，然后基于融合基因表达数据和DNA甲基化数据扩展后的通路基因集进行基因集层次上的统计分析，最后根据分析结果进行癌症相关通路识别。本发明所述方法具有提高了识别的准确性和精确性等特点。

Description

基于网络融合多组学数据的癌症相关通路识别方法

技术领域

本发明涉及基于网络融合多组学数据的癌症相关通路识别方法，属于计算机应用技术生物信息学技术领域。

背景技术

随着高通量分子生物学实验技术的发展和分析成本的降低，海量的多组学数据(基因组学、转录组学、表观基因组学、蛋白质组学和代谢组学)涌现在多个公共科学项目(TCGA，GEO)上，使得研究人员可以整合多组学数据，融合不同分子水平数据全面的研究癌症致病机理。各组学海量数据的快速积累，为揭示癌症致病机理提供了有力的数据支持。如何从这些海量数据中，挖掘出生命体的生物规律将是生物医学、生物信息学未来几年面临的重要挑战。传统的研究方法中，研究人员主要集中在基因组学和转录组学，通过统计两个生物学条件之间表现出一致差异的基因或通路来揭示癌症等复杂疾病的致病机理。识别这样的基因或通路在生物医学研究中是重要的。例如，识别与癌症发生、发展相关的基因或通路，然后通过药物靶向这些基因或通路来治疗癌症。众所周知，癌症是一种复杂疾病，具有高异质性，由遗传变异和外在环境等众多因素共同导致的。单单从单个组学数据研究癌症，有可能遗失掉疾病发生、发展的重要信息。同时，随着“精准医疗”和“个性化医疗”概念的提出，基于小样本量的研究也将是一个关键的挑战。癌症的产生和发展往往是遗传变异和表观遗传变异联合作用的结果，因此为了阐明癌症这种复杂疾病背后的致病机制，除了研究转录组学外，还必须研究和整合其他组学数据。众多组学数据中，转录组学和表观基因组学关系最为密切，因此基于整合转录组学和表观基因组学的复杂疾病致病机理的研究是目前研究热点之一。

表观基因组学与基因组学是相对应的概念，其是在基因组的水平上研究表观遗传修饰的一个研究领域。近年来，表观基因组学研究由于其在基因表达调控方面大量成果的出现而备受关注。表观基因组学研究内容有DNA甲基化、组蛋白修饰、非编码RNA等等。在这众多研究内容中，DNA甲基化被认为是表观基因组学中最重要的疾病相关研究方向。现有研究证实DNA甲基化与癌症的发生、发展联系密切。但现有的DNA甲基化在癌症相关通路识别应用中存在识别准确性低，精确度低以及识别遗漏的问题。

发明内容

本发明为了解决现有的癌症相关通路识别方法中存在识别准确性低，精确度低以及识别遗漏的问题，提出了一种基于网络融合多组学数据的癌症相关通路识别方法，所采取的技术方案如下：

基于网络融合多组学数据的癌症相关通路识别方法，所述癌症相关通路识别方法包括：

步骤一、构建加权基因交互网络，利用融合DNA甲基化和基因表达数据来计算蛋白质之间的相互作用强度，计算结果作为权重赋予两个基因对应的边；然后将基因交互网络中所有的边权重在不同的表型数据下依次计算完毕，获得两个表型特异性加权基因交互网络；

步骤二、利用步骤一构建的基因交互网络进行通路扩展，获得最终扩展通路；

步骤三、利用将最终扩展通路与显著表达分析方法和功能类得分方法结合，形成EP-ORA方法和EP-GSEA方法，并利用EP-ORA(Extended Pathway ORA)方法和EP-GSEA(Extended Pathway GSEA)方法进行癌症相关通路的识别，获得癌症相关通路的识别结果。

进一步地，步骤一所述两个表型特异性加权基因交互网络的具体过程包括：

第一步、将PPI(蛋白质-蛋白质相互作用)网络作为先验网络；

第二步、将网络中的节点蛋白质转换为基因symbol，构建基因交互网络；

第三步、通过整合DNA甲基化和基因表达数据计算所述基因交互网络中的边的权重；

第四步、重复第一步至第三步的内容，直至基因交互网络中所有的边权重在不同的表型数据下按上述过程依次计算完毕，即可获得两个表型特异性加权基因交互网络。

进一步地，所述第三步所述计算所述基因交互网络中的边的权重的具体过程包括：

步骤1、使用主成分分析(Principal Component Analysis，PCA)方法对基因中CpG位点的数据进行空间变换，变换后的数据满足正交性，即不相关；

步骤2、取0.95作为主成分分析的阈值用于降维；

步骤3、将甲基化位点数据降维后的主成分和表达数据组合构成一个矩阵；

步骤4、采用SCCA(Sparse Canonical Correlation Analysis，SCCA)方法的第一典型相关系数表征两个基因的相互作用强度，计算结果作为权重赋予两个基因对应的边，即获得边的权重。

进一步地，步骤二所述获得最终扩展通路的过程包括：

第1步、把DNA甲基化和基因表达数据根据表型分为两组，两组分别为癌症样本Case和正常样本Control；

第2步、将癌症样本Case和正常样本Control分别与所述基因交互网络结合，获得两个表型特异性加权基因交互网络；两个表型特异性加权基因交互网络分别为基因交互网络Case和基因交互网络Control；

第3步、把现有通路数据库中的通路依次嵌入到不同的网络中基因交互网络Case和基因交互网络Control中；

第4步、根据limited kWalks算法扩展通路，在不同网络下扩展的基因列表，即在各表型特异网络中寻找通路的重要邻居，然后作为新的组分扩充到得到通路中去；其中，所述重要邻居是指limited kWalks算法随机游走经过的每条边的相关度分数都可计算出来。当边的相关度分数超过设定的阈值θ时(采用缺省值)，这条边就作为扩展边扩展到子网络中；

第5步、最后合并每个通路在不同表型下扩展后的基因列表，合并后的基因列表作为通路扩展最终的通路基因集，即获得最终扩展通路。

进一步地，步骤三所述获得癌症相关通路的识别结果的具体过程包括：

第一步、扩展后的通路基因集输入到显著表达分析(over-representationanalysis，ORA)方法和基因集富集分析(Gene Set Enrichment Analysis，GSEA)方法中。

第二步、分别根据P值和FDR值对所有通路进行筛选。

第三步、在ORA和EP-ORA方法中设定P值<0.05，GSEA和EP-GSEA方法中FDR<0.25，通过上述阈值删选出的生物学通路即认为是与癌症相关的通路。

本发明有益效果：

本发明提出的基于网络融合多组学数据的癌症相关通路识别方法能够有效识别癌症相关通路，极大程度上提高了识别的准确性和精确性，并有效的降低的通路识别遗漏情况，通过表1我们可以看到，EP-ORA相比ORA方法识别出了更多的与癌症相关通路，从表2可以看出在少样本的情况下GSEA没有识别出癌症相关通路，而我们的方法EP-GSEA可以有效的识别出癌症相关通路。

附图说明

图1为本发明所述癌症相关通路识别方法的工作流程图；

图2为本发明所述癌症相关通路识别方法的网络中基因对权重的计算过程展示图；

图3为本发明所述癌症相关通路识别方法的加权表型特异网络的构建和原始通路的扩展工作流程流程图。

具体实施方式

下面结合具体实施例对本发明做进一步说明，但本发明不受实施例的限制。

实施例1：

图1描述了本方法的整体工作流程。首先基于基因表达数据进行基因层次上的统计分析，然后基于融合基因表达数据和DNA甲基化数据扩展后的通路基因集进行基因集层次上的统计分析，最后根据分析结果进行癌症相关通路识别。本实施例方法是建立在经典的基因集富集分析方法基础上的，比如显著表达分析(over-representation analysis，ORA)、基因集富集分析(Gene Set Enrichment Analysis，GSEA)等等。主要区别是：所述方法进行富集分析的是通路扩展后的基因列表。具体的：

基于网络融合多组学数据的癌症相关通路识别方法，如图1至图3所示，所述癌症相关通路识别方法包括：

其中，步骤一所述两个表型特异性加权基因交互网络的具体过程包括：

第一步、将PPI(蛋白质-蛋白质相互作用)网络作为先验网络；

所述第三步所述计算所述基因交互网络中的边的权重的具体过程包括：

步骤2、取0.95作为主成分分析的阈值用于降维；

步骤二所述获得最终扩展通路的过程包括：

第4步、根据limited kWalks算法扩展通路，在不同网络下扩展的基因列表，即在各表型特异网络中寻找通路的重要邻居，然后作为新的组分扩充到得到通路中去；其中，所述重要邻居是指指limited kWalks算法随机游走经过的每条边的相关度分数都可计算出来。当边的相关度分数超过设定的阈值θ时(采用缺省值)，这条边就作为扩展边扩展到子网络中；

步骤三所述获得癌症相关通路的识别结果的具体过程包括：

第二步、分别根据P值和FDR值对所有通路进行筛选。

本实施例所述方法的详细说明如下：

(1)构建加权基因交互网络

本方法以PPI(蛋白质-蛋白质相互作用)网络作为先验网络。PPI网络提供了蛋白质之间的物理连接，但是没有提供蛋白质之间的相互作用强度，对于蛋白质之间的相互作用强度现有的方法大都基于基因表达数据通过皮尔逊相关系数来进行计算，本实施例提出一种融合DNA甲基化和基因表达数据来计算蛋白质之间的相互作用强度的方法。首先把网络中的节点蛋白质转换为基因symbol，构建基因交互网络。边的权重通过整合DNA甲基化和基因表达数据计算，图2描述了边权重的计算过程。由于DNA甲基化不是一种基因特异性(gene-specific)，而是一种区域特异性(region-specific)的现象，即一个基因包含多个甲基化位点数据。DNA甲基化数据和表达数据整合起来就构成了一个矩阵。计算两个基因的关系就转化为计算两个矩阵的关系。计算过程中，考虑到一个基因中邻近CpG点间存在相关性，首先使用主成分分析(Principal Component Analysis，PCA)方法对基因中CpG位点的数据进行空间变换，变换后的数据满足正交性，即不相关。又因为主成分分析(PrincipalComponent Analysis，PCA)有降维的作用，本实施例取0.95作为主成分分析的阈值。甲基化位点数据降维后的主成分和表达数据组合构成一个矩阵。然后使用稀疏典型相关分析(Sparse Canonical Correlation Analysis，SCCA)第一典型相关系数表征两个基因的相互作用强度，计算结果作为权重赋予两个基因对应的边。基因交互网络中所有的边权重在不同的表型数据下按上述过程依次计算完毕，就得到了两个表型特异性加权基因交互网络。

(2)基于加权基因交互网络的通路扩展

图3描述了通络扩展的整个流程。首先，把DNA甲基化和基因表达数据根据表型进行分组(癌症样本Case和正常样本Control)，然后基于上一步方法，构造两个表型特异性加权基因交互网络(Case和Control)。然后，把现有通路数据库中的通路依次嵌入到不同的网络中，根据limited kWalks算法扩展通路，在不同网络下扩展的基因列表(即在各表型特异网络中寻找通路的重要邻居，然后作为新的组分扩充到得到通路中去)。最后合并每个通路在不同表型下扩展后的基因列表，合并后的基因列表作为通路扩展最终的通路基因集。本实施例把最后的并集作为最终的通络扩展结果，是基于以下假设。认为，虽然在不同的表型下，基因的交互是不同的，扩展网络时扩展进来的周边节点也不同，但是所有扩展进网络的节点在对应的表型下都是有积极贡献的，积极的与给定通路进行了交互，也就是积极参与了通路的调控。无论在什么表型下，凡是积极与通路密切交互，参与通路调控的基因，都是该通路重要的基因。

(3)癌症相关通路的识别

由于显著表达分析(over-representation analysis，ORA)方法和功能类得分(functional class scoring，FCS)方法都是以通路基因集作为输入的，因此使用通路扩展后的基因集与显著表达分析(over-representation analysis，ORA)方法和功能类得分(functional class scoring，FCS)方法结合来识别与癌症相关的通路。ORA方法是基因功能富集分析方法的一种。其原理是通过统计学方法来检验通路基因集中显著差异基因数目在与癌症相关的基因列表中是否是富集的。统计学方法主要有：二项分布(binomialdistribution)、费舍尔精确检验(Fisher exact test)、卡方检验(chi-square)和超几何分布(hypergeometric distribution)。这些统计学方法中最基础的是超几何分布，其他方法都是基于超几何分布演变过来的。本实施例采用超几何分布来评估通路与癌症的关系。超几何分布评估通路与癌症的关系是通过P值(P-value)来度量的。

FCS方法中采用GSEA方法。GSEA方法的原理是通过判断通路的基因是随机的分布于排序后的基因列表上还是有序的分布于排序后的基因列表的顶部与尾部。如有序的分布于排序后的基因列表的顶部与尾部，则表示该通路与表型可能有一定的关联。最后通过显著性检验和P值校正，来最终确定关联关系。

在BRCA数据集上，使用通路扩展后的基因列表与ORA方法和FCS方法结合来识别与乳腺癌相关的通路。为了方便描述，相对于原来的ORA和GSEA方法，本实施例的方法分别记为EP-ORA(Extended Pathway ORA)和EP-GSEA(Extended Pathway GSEA)。

在识别显著性通路时，设定校正后的P值<0.05，EP-ORA和ORA方法分别识别出18个和6个与乳腺癌相关的通路，其中有两个通路被两个方法同时发现，分别是Cell cycle和Focal adhesion(见表1)。通过比较，发现EP-ORA比ORA识别出了更多的显著性通路，其中有很多已经被临床验证与乳腺癌密切相关的通路被EP-ORA方法识别出来，特别是EP-ORA方法识别出了通路p53signaling pathway。通路p53signaling pathway不但已经临床证明与乳腺癌密切相关，并且在治疗过程中常常作为靶向通路来进行靶向用药。这说明通过扩展通路来进行过表达分析(ORA)是更有效的。

表1 ORA方法和EP-ORA方法在BRCA数据集中识别的风险通路比较

表2 GSEA方法和EP-GSEA方法在BRCA中识别的风险通路比较

表2展示了EP-GSEA和GSEA分析的结果。在分析过程中设定表型随机置换1000次,设定阈值FDR<0.25。标准的GSEA方法一个显著性通路都没识别出来，原因可能是样本少的缘故。EP-GSEA方法识别出三个显著性通路，并且这三个通路均已经被文献证实与乳腺癌相关。例如，细胞色素P4500(cytochrome P450，CYP450)是体内重要的代谢酶，其不仅可以催化众多内源性物质和外源性物质在体内的phase I代谢反应，而且与疾病、肿瘤易感性及机体耐药性的产生有密切关系。并且细胞色素P4500与许多前致癌物和致癌物的活化有关。已有文献证实P450超基因家族酶系中的重要成员P450 2E1对乳腺癌细胞的能量代谢和致癌性有很大作用，可以作为乳腺癌生物标志物进行靶向。这表明，通路Metabolism ofxenobiotics by cytochrome P450和Drug metabolism-cytochrome P450与乳腺癌有密切关系。通过EP-GSEA和GSEA比较分析，说明扩展后的通路进行功能类得分(FCS)分析相比原始通路基因集更有有效。

虽然本发明已以较佳的实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可以做各种改动和修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.基于网络融合多组学数据的癌症相关通路识别方法，其特征在于，所述癌症相关通路识别方法包括：

步骤三、利用将最终扩展通路与显著表达分析方法和功能类得分方法结合，形成EP-ORA方法和EP-GSEA方法，并利用EP-ORA方法和EP-GSEA方法进行癌症相关通路的识别，获得癌症相关通路的识别结果。

2.根据权利要求1所述癌症相关通路识别方法，其特征在于，步骤一所述两个表型特异性加权基因交互网络的具体过程包括：

第一步、将PPI网络作为先验网络；

3.根据权利要求2所述癌症相关通路识别方法，其特征在于，所述第三步所述计算所述基因交互网络中的边的权重的具体过程包括：

步骤1、使用主成分分析方法对基因中CpG位点的数据进行空间变换，变换后的数据满足正交性，即不相关；

步骤2、取0.95作为主成分分析的阈值用于降维；

步骤4、采用SCCA方法的第一典型相关系数表征两个基因的相互作用强度，计算结果作为权重赋予两个基因对应的边，即获得边的权重。

4.根据权利要求1所述癌症相关通路识别方法，其特征在于，步骤二所述获得最终扩展通路的过程包括：

5.根据权利要求1所述癌症相关通路识别方法，其特征在于，步骤三所述获得癌症相关通路的识别结果的具体过程包括：

第一步、扩展后的通路基因集输入到显著表达分析方法和基因集富集分析方法中；

第二步、分别根据P值和FDR值对所有通路进行筛选；

第三步、在ORA和EP-ORA方法中设定P值<0.05，GSEA和EP-GSEA方法中FDR<0.25，通过上述阈值筛选出的生物学通路即认为是与癌症相关的通路。