CN109166604A

CN109166604A - 一种融合多数据特征预测关键蛋白质的计算方法

Info

Publication number: CN109166604A
Application number: CN201810958860.4A
Authority: CN
Inventors: 张伟; 徐佳
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2019-01-08
Anticipated expiration: 2038-08-22
Also published as: CN109166604B

Abstract

本发明公开了一种融合多数据源预测关键蛋白质的计算方法。该方法通过分析关键蛋白质所体现的聚集性、共表达性、功能相似性、位置一致性的特征，有效融合蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数、基因本体术语的语义相似性指数以及蛋白质亚细胞定位统计特征。本发明方法简单易用，输入蛋白质相互作用关系数据、基因表达谱数据、基因本体术语信息数据以及蛋白质亚细胞定位数据信息这四种数据，经测试验证，和已有方法相比本发明提出的方法可以显著提高蛋白质相互作用网络中关键蛋白的预测精度和效率。

Description

一种融合多数据特征预测关键蛋白质的计算方法

技术领域

本发明涉及数学与生物学交叉领域，具体涉及基于生物多种数据源来识别蛋白质相互作用网络中关键蛋白质的计算方法。

背景技术

蛋白质是构成细胞的基因有机物质，是生命活动的主要参与者，在维持正常生理活动中扮演着非常重要的角色。关键蛋白质是在维持生物体正常生命活动所必须的蛋白质，一旦这类蛋白质发生异常将会导致生物体正常生理活动失调甚至引起疾病。研究表明，关键蛋白质与致病基因、药物靶标设计以及个性化医疗治疗都有密不可分的联系，有效识别关键蛋白质有助于对疾病的致病机理和药物分子靶标的研究。

传统的生物学实验一般采用基因敲除、RNA干扰等方法来识别关键蛋白质，由于生物学实验周期长、花费高、效率低、而且只能在有限的物种上面进行实验，很难满足当前生物领域快速发展的需求。随着近些年来高通量生物学技术的快速发展，人们可以获得大量的高通量数据，例如：蛋白质相互作用数据、基因功能注释信息数据、基因时序表达数据、蛋白质子细胞定位数据等等，这为从计算的角度预测关键蛋白质提供了条件。基于这些数据，如何从数学角度有效挖掘这些数据之间蕴含的内在特性，设计数学计算方法来从计算角度预测关键蛋白质是目前比较热门的研究领域。

已有的研究成果显示，一个蛋白质是否为关键蛋白质取决于这个蛋白质在生物分子网络中所对应节点的拓扑结构和生物学特性。

近些年来国内外学者提出了很多预测关键蛋白质的计算方法，从早期的基于蛋白质相互作用网络拓扑结构特征的方法，如连接度中心性(Degree Centrality,DC),介数中心性(Betweenness centrality,BC),边聚类系数中心性(Edge Clustering Coefficientcentrality,ECC),子图中心性(Subgraph Centrality,SC),特征向量中心性(EigenvectorCentrality,EC)和邻居中心性(Neighbor Centrality,NC)等来将蛋白质按照这些数值的大小排序，从而进行关键蛋白质预测。这些基于拓扑结构特征的方法预测精度依赖于蛋白质相互作用网络数据的可靠性，而目前通过高通量技术得到的蛋白质相互作用含有较大的假阳性等噪声数据，很大程度限制了基于网络拓扑结构特征方法的预测精度。随着多种生物学数据的涌现，研究者发现有效结合多种数据信息可以减少蛋白质相互作用网络数据中噪声对预测精度的影响、显著提高关键蛋白质的预测效率。例如：结合网络拓扑结构和基因表达数据等的方法有Pec,CoEWC等、结合网络结构和GO术语的注释信息数据的有GEG，TEO方法、结合网络结构和蛋白质亚细胞定位数据信息的CIC，SCP方法以及结合网络结构与蛋白质直系同源信息数据的ION方法等。

虽然上述综合多数据源方法在预测关键蛋白质精度上有所提高，但是，目前预测关键蛋白质的精度和效率仍有待提高。

发明内容

为解决背景技术中提到的问题，本发明旨在提供一种新的基于多数据源融合的方法来预测蛋白质相互作用网络中关键蛋白质。

本发明采用以下技术方案：

一种基于多数据源融合预测关键蛋白质的计算方法，具体操作按照以下步骤进行：

(1)基于蛋白质相互作用网络，计算相互作用连边的聚类系数；

(2)计算蛋白质相互作用网络中每条连边(u,v)的两个蛋白质u,v对应基因的共表达相关性，基于已有基因的时序表达数据，采用皮尔逊相关系数计算所有相互作用蛋白质对的共表达相关系数；

(3)根据蛋白质相互作用数据中的任意一对蛋白质相互作用关系的两个蛋白，找出这两个蛋白在对应基因本体(GO)被注解术语注释编号(GO-id)，然后根据基因语义相似性计算方法计算这一对蛋白质之间的功能相似性，依次类推，计算所有相互作用蛋白质对的功能相似性值；

(4)统计已知关键蛋白质的亚细胞定位信息，计算已知关键蛋白质所处亚细胞定位的概率；统计蛋白质相互作用网络中每条连边(u,v)对应蛋白质u,v的亚细胞定位信息，计算网络中每条连边对应蛋白质组的亚细胞定位信息的交集；

(5)由上述步骤得到的网络边聚类系数，共表达相关性，功能相似性数据和蛋白质亚细胞定位统计数据按照公式(4)计算每个蛋白质的关键值，并将关键值从大到小进行排序，值越大说明这个蛋白质为关键蛋白质的可能性越大。

本发明公开了一种融合多数据源(蛋白质相互作用网络数据、基因表达数据、GO术语的语义信息数据以及蛋白质亚细胞定位数据信息)来预测关键蛋白质的计算方法。本方法有效挖掘关键蛋白质内在特性，将关键蛋白质在网络中的拓扑属性、关键蛋白质之间共表达相关性、功能相似性以及亚细胞定位的统计特性有效的结合在一起，提出了新的预测关键蛋白质的计算方法。

本发明的技术效果是：本发明与现有的技术相比，在考虑蛋白质相互作用网络拓扑结构特性的基础上，结合基因表达时序数据、基因本体语义功能注释信息数据和蛋白质亚细胞定位信息数据，整合这四组数据来预测关键蛋白，能有效的减少单个数据源数据噪声对预测准确性的影响，本发明提出的方法在预测准确度上与已有方法相比具有明显优势，能有效解决了生物实验的昂贵成本和时间周期长等问题，可为生物学家进行生物学验证提供可靠依据。

附图说明

图1为本发明TEGS方法与其它六种中心性度量方法DC、BC、NC、Pec、WDC、TEO在测试数据下预测正确的关键蛋白个数比较图，其中N分别取100、200、300、400、500、600对应的子图表示预测的前N个关键蛋白质中各种方法预测正确的关键蛋白质个数比较。

图2为本发明TEGS方法与其它六种中心性度量DC、BC、NC、Pec、WDC、TEO在测试数据下Jackknife方法的jackknife曲线图。X轴表示按照各个关键蛋白质预测方法排序，排在前面的蛋白质个数；Y轴表示预测正确的关键蛋白质累计数目。

图3为本发明TEGS方法与其它六种中心性度量DC、BC、NC、Pec、WDC、TEO在测试数据下precision-recall曲线比较图。

具体实施方式

下面将结合附图和具体实施方式详细说明本发明所具有的有益效果，旨在帮助阅读者更好地理解本发明的实质，但不能对本发明的实施和保护范围构成任何限定。

鉴于酵母的蛋白质相互作用关系数据和关键蛋白质数据是目前所有物种中最为完整的，为了测试本发明的有效性，采用酵母数据用于接下来的验证分析。本发明中用于测试的酵母蛋白质相互作用关系数据来源于DIP数据库2010年10月的数据，剔除掉重复的和自相互作用数据后，最终得到一个包含5093个蛋白质和24743条连边的蛋白质相互作用网络数据；

从GEO(Gene Expression Omnibus)数据库中下载酵母的基因表达数据(GSE3431)，该基因表达数据包含6,777个基因产物对应的36个时间点的表达值；

从Gene Ontology Consortium数据库中下载酵母的GO注释语义信息数据，截止日期是2015-3-4；

酵母蛋白质的亚细胞定位数据来源于COMPARTMENTS数据库，该数据中酵母蛋白质分别被11种亚细胞定位注释，分别为细胞骨架、细胞核、内质网、细胞质、高尔基体、线粒体、核内体、细胞膜、溶酶体、细胞外基质和液泡。

已知酵母的关键蛋白质一共包含1285个关键蛋白，这些数据从MIPS(MunichInformation center for Protein Sequences)、SGD(Saccharomyces Genome Database)、DEG(Database of Essential Genes)和SGDP(Saccharomyces Genome Deletion Project)这四个数据库中搜集得到。经过统计，实验所用的酵母蛋白质相互作用网络数据中共有5093个蛋白，其中1167个是关键蛋白，剩下的3926个蛋白质被视为非关键蛋白质。

通过对已知数据的分析发现蛋白质相互作用网络中的关键蛋白总是会形成连接紧密的子网，从拓扑结构来看它们之间的聚类系数较高，而且处在同一个连接子网里面的关键蛋白之间的共表达的概率很高；从基因表达值之间的关系来看，它们之间的相关系数较高；连接紧密的子网通常是由一个或者多个复合物组成共同执行某个特定的生物功能，因此它们之间的拥有较高的功能相似性。另外，为了减少假阳性数据的影响，认为只有当两个蛋白质都处在同一子细胞位置时才可能有相互作用关系。

鉴于此，本发明通过综合PPI网络拓扑结构、基因时序表达值、GO语义注释信息、蛋白质亚细胞定位数据提出了一个新的识别蛋白质相互作用网络中关键蛋白的计算方法TEGS。在给定的测试酵母蛋白质相互作用网络数据下，计算每个蛋白质的关键性指数(TEGS)，具体实施步骤如下：

步骤1：边聚类系数(edge clustering coefficient(ECC))从网络拓扑结构上刻画了网络中相连两个节点u,v之间的疏密程度，已有研究表明，关键蛋白质之间相对连接比较紧密，因此采用ECC来刻画两个蛋白质之间拓扑上紧密程度。网络中节点u和节点v之间的边聚类系数(edge clustering coefficient(ECC))的定义如下：

其中d_u和d_v分别为节点u和v的度。表示由边(u,v)构成的在这个网络中三个节点相连组成三角形子网的个数。

步骤2.为了刻画网络中相互作用的蛋白质之间共表达性，采用统计学中皮尔逊相关系数(Pearson correlation coefficient(PCC))来计算两蛋白对应基因表达值的相关性，一对基因(X和Y)之间的表达相关性计算皮尔逊相关系数定义如下：

其中n是基因表达值数据的样本数目；X_i是第i个基因的表达水平，std(X)表示基因表达值X的标准差。

步骤3.为了刻画两个蛋白质之间功能相似性，我们采用基因本体(GeneOntology,GO)被注解术语对的基因语义相似性来度量两个相连蛋白质功能之间的相似程度。基因本体包含三个独立部分，分别是生物过程(Biological Process(BP))，细胞组成(Cellular Component(CC))和分子功能(Molecular function(MF))。之前的研究表明，生物过程信息比其它两种信息在预测关键蛋白质时更有优势，因此仅考虑在生物过程下的语义相似性，采用基于James Z Wang等人提出的计算方法(Wang JZ,Du Z,Payattakool R,YuPS,Chen CF:A new method to measure the semantic similarity of GOterms.Bioinformatics 2007,23(10):1274-1281.)的R中工具箱GOsim来计算两个相连蛋白质u,v之间功能相似性GO_sim(u,v)。

步骤4.由于酵母蛋白质被11种亚细胞定位注释，将亚细胞定位分别用1到11这11个数字分别表示，每个蛋白质u的亚细胞定位信息为SL(u)∈{1,2,…11,0}(其中0表示该蛋白质没有被任何一个亚细胞定位注释)；统计已知的关键蛋白质对应的亚细胞定位数据，计算关键蛋白质中被一种亚细胞定位注释的个数和占整个已知关键蛋白质组的比例，得到每个亚细胞位置i＝1,2,…,11出现关键蛋白质的概率SLI(i),i＝1,2,…,11。然后计算测试蛋白质相互作用网络中蛋白质u的亚细胞定位关键性即该蛋白质被注释的所有亚细胞定位出现关键蛋白质概率之和。

另外，基于测试的酵母蛋白质相互作用网络数据，统计网络中每条连边(u,v)对应蛋白质u,v的亚细胞定位信息SL(u),SL(v)并计算其交集中元素个数

步骤5.基于上述步骤中计算得到的边聚类系数、共表达相关性、功能相似性、蛋白质亚细胞定位统计特征，定义新的识别关键蛋白质的方法TEGS如下：对于蛋白质相互作用网络中的蛋白u，TEGS(u)的计算公式如下：

其中N_u表示节点u的所有邻居节点集合，α为[0,1]之间的常数，用于调节两种类型信息的比例，测试数据中取α＝0.2。将测试酵母蛋白质相互作用网络中蛋白质按照TEGS指数从大到小排序，认为排名越靠前的蛋白质是关键蛋白质的概率越大，输出结果。然后与已知的酵母关键蛋白质进行对比，计算预测的排名前N个蛋白质中关键蛋白质个数。

为了评估本发明方法的有效性，将本发明方法TEGS与几种代表性方法(DC、BC、NC、Pec、WDC、TEO)在酵母蛋白质相互作用测试数据下进行比较，采用已有的1285个酵母关键蛋白质作为标准集，比较各种方法的优劣。

A.基于预测正确个数的柱状图比较

图1结果显示，本发明TEGS方法与其它六种中心性度量方法DC、BC、NC、Pec、WDC、TEO在预测排名前N(N＝100,200,300,400,500,600)的蛋白质作为候选关键蛋白质时，真正预测正确的蛋白质个数除了TEO方法在前100个预测的蛋白质中有优势之外，TEGS方法预测正确的关键蛋白质个数在取前200,300,400,500,600时明显优于其它方法。本发明方法TEGS在前600个预测的关键蛋白质中，预测正确的个数高达397个，准确度为0.662。

B.基于jackknife方法的结果比较

采用jackknife方法来验证TEGS方法及其它六种方法在测试数据下的结果。图2为TEGS方法与其它六种中心性度量DC、BC、NC、Pec、WDC、TEO在测试数据下jackknife曲线图。X轴表示按照各个关键蛋白质预测方法排序，排在前面的蛋白质个数；Y轴表示预测正确的关键蛋白质累计数目。图中线下的面积体现方法性能好坏，面积越大，精确度越高，从图2中可以看出本发明方法TEGS预测关键蛋白质准确度明显高于其它方法。

C.基于precision-recall曲线结果比较

为了进一步测试本发明方法的有效性，采用precision-recall曲线来验证TEGS方法与其它六种方法的性能。图3中展现了本发明TEGS方法与其它六种中心性度量DC、BC、NC、Pec、WDC、TEO在测试数据下precision-recall曲线比较。从图3中可以看出TEGS方法预测关键蛋白质的精确度明显优于其它方法。

以上所述的仅仅是对本发明的实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种融合多数据特征预测关键蛋白质的计算方法，包括如下步骤：

步骤1:基于已有蛋白质相互作用关系数据，构建蛋白质相互作用关系的邻接矩阵，采用以下的边聚类系数公式计算连边(u,v)的聚类系数：

其中d_u和d_v分别为节点u和v的度，表示由边(u,v)构成的在这个网络中三个节点相连组成三角形个数；

步骤2：根据基因时序表达数据计算基因之间的表达相关性，具体采用皮尔逊相关系数公式计算每对蛋白质相互作用关系下对应的基因对之间两基因之间的表达相关性，一对基因X和Y之间的表达相关性计算皮尔逊相关系数定义如下：

其中n是基因表达值数据的样本数目；X_i是第i个基因的表达水平，std(X)表示X的标准差；

步骤3：基于下载酵母基因本体术语注释信息数据，找出蛋白质相互作用关系数据中每个蛋白质u对应的基因本体术语的编号信息(GO-id(u))，这样每一对相互作用的两个蛋白质(u,v)对应的一对基因本体术语在生物过程信息下的编号(GO-id(u),GO-id(v))；采用统计软件R中工具箱GOSim来计算蛋白质相互作用关系数据对应的基因本体术语在生物过程下的相似度GO_sim(u,v)；

步骤4：基于下载的酵母蛋白质亚细胞定位数据，将11种亚细胞定位分别用1到11这些数字分别表示，每个蛋白质u的亚细胞定位信息为SL(u)∈{1,2,…11,0}，其中0表示该蛋白质没有被任何一个亚细胞定位注释；统计已知的关键蛋白质对应的亚细胞定位数据，计算关键蛋白质中被一种亚细胞定位注释的个数和占整个已知关键蛋白质组的比例，得到每个亚细胞位置出现关键蛋白质的概率SLI(i),i＝1,2,…,11；然后计算测试蛋白质相互作用网络中蛋白质u的亚细胞定位关键性即该蛋白质被注释的所有亚细胞定位出现关键蛋白质概率之和；

步骤5：基于上述步骤中计算得到的边聚类系数、共表达相关性、功能相似性、蛋白质亚细胞定位统计特征，定义新的识别关键蛋白质的方法TEGS如下，对于蛋白质相互作用网络中的蛋白u,TEGS(u)的计算公式如下：

其中N(u)表示节点u的所有邻居节点集合，α为[0,1]之间的常数。

步骤6：将上述计算得到的每个蛋白质的TEGS值进行由大到小排序，TEGS值越大排序越靠前的蛋白质是关键蛋白质的概率越大。