CN105138866A

CN105138866A - 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法

Info

Publication number: CN105138866A
Application number: CN201510494750.3A
Authority: CN
Inventors: 李占潮; 邹小勇; 戴宗
Original assignee: Guangdong Pharmaceutical University; Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Guangdong Pharmaceutical University; Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2015-08-12
Filing date: 2015-08-12
Publication date: 2015-12-09

Abstract

本发明公开了一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法。首先，构建节点和边加权的蛋白质相互作用网络，节点代表蛋白质、边代表其相互作用；然后，采用蛋白质一级结构描述符和蛋白质-蛋白质相互作用信任得分对网络中的节点和边加权；收集蛋白质功能注释数据，构建数据集，基于图论，提出新的具有全局和局部信息地网络拓扑结构特征蛋白质；最后，采用最小冗余最大相关方法选择特征、利用支持向量机构建模型预测蛋白质功能。本发明的蛋白质功能预测方法显著优于现有技术，对序列相似性和采样具有鲁棒性，同时由于不需要蛋白质的三维结构等信息，本方法简单、快速、准确、高效，有望应用于蛋白组学等研究领域。

Description

一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法

技术领域

本发明属于蛋白质组学技术技术领域。更具体地，涉及一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法。

背景技术

蛋白质是一个由一条或多条肽链组成的生物大分子，是细胞的基本功能单元。在有机体中，蛋白质执行各种各样的生物功能，例如：DNA的复制与转录、催化生物反应、运输生物活性分子等。因此，蛋白质的功能注释是在分子水平上阐明生命本质的一个重要步骤，对于病理机制的研究以及潜在药物靶标的识别具有重要的作用。随着高通量测序技术的飞速发展，各种各样的数据库已经存储了海量的蛋白质序列信息。可是，仅很少一部分具有功能注释，例如：截止2015年7月，UniProtKB数据库存储了5千多万条蛋白质序列信息，可是仅大约54万条蛋白质具有功能注释信息。非常明显，不可能采用传统的实验方法在合理的时间内测定如此多的蛋白质的功能。因此，发展快速、高效和准确的理论方法识别蛋白质功能已经成为蛋白组学的一个研究热点。

现有的理论方法通常采用蛋白质同源性或者三级结构相似性识别蛋白质功能。但是，这些方法都有一些缺陷，例如：基于同源性的方法没有考虑到同源性蛋白质可以在漫长的进化过程中获得不同的生物功能这一情况。基于结构相似性的方法没有考虑到纵使两个蛋白质的三维结构高度相似，但是关键活性位点的残基的改变就可以改变蛋白质的生物功能这一情况。

发明内容

本发明要解决的技术问题是克服现有蛋白质能够预测技术的缺陷和不足，提供一种新的简单、高效和准确的蛋白质功能识别方法——网络拓扑结构特征，在蛋白质相互作用网络拓扑结构特征的基础上，利用最小冗余和最大相关方法获得最优特征子集，采用支持向量机构建模型对蛋白质功能开展识别研究，该表征方法不仅考虑了蛋白质一级结构信息，而且还包含了网络拓扑结构信息，预测结果明显优于文献报道结果，有望应用于蛋白组学研究以及潜在药物靶标的识别等技术领域。

本发明的目的是提供一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法。

本发明另一目的是提供上述方法的应用。

本发明上述目的通过以下技术方案实现：

一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，包括以下步骤：

S1.收集数据集，构建节点和边加权的蛋白质相互作用网络

收集蛋白质与蛋白质相互作用数据集，构建节点和边加权的蛋白质相互作用网络；在网络中，节点表示蛋白质，边表示相互作用；计算蛋白质一级结构特征，对节点加权；利用蛋白质-蛋白质相互作用信息得分，对边加权；

S2.收集蛋白质功能注释数据，构建数据集

收集具有功能注释信息的蛋白质，同时收集负样本，所述负样本是指不具有某一特定功能的蛋白质；根据收集的具有某一特定功能的蛋白质和没有这一特定功能的蛋白质构建数据集；

S3.基于网络拓扑结构特征表征蛋白质

基于图论，同时考虑节点权重和边权重，计算具有全局信息和局部网络拓扑结构信息的特征表征蛋白质，其表示如下：

A P V W {(i)}_{L} = \frac{Σ \frac{v_{i} \times v_{i (1)} \times v_{i (2)} \times ... ... v_{i (L)}^{F}}{1 \times 2 \times 3 \times ... ... \times L}}{N P}

式中，v_i和v_i(L)是给定节点i和i(L)的权重；上角标“F”表示蛋白质v_i(L)具有某一功能；v_i和v_i(L)顶点之间的路径距离等于L，并且顶点i,i(1),…,i(L-1),i(L)均包含在这条路径上；NP是距离等于L的路径数目；

P W P F P {(i)}_{L} = \frac{Σ (e_{i, i (1)} + e_{i (1), i (2)} + ... ... + e_{i (L - 1), i (L)}^{F})}{Σ (e_{i, i (1)} + e_{i (1), i (2)} + ... ... + e_{i (L - 1), i (L)})}

其中，e_i,i(1)是两个顶点i和i(1)之间的边权重，中上角标“F”表示i(1)具有某一功能；

A P W P F {(i)}_{L} = \frac{Σ (e_{i, i (1)} + e_{i (1), i (2)} + ... ... + e_{i (L - 1), i (L)}^{F})}{| N^{F} |}

式中，N^F和|N^F|分别表示具有某一功能的蛋白质集合，以及集合中元素的数目；

P I N P F P {(i)}_{L} = \frac{E_{v_{i (L)}, v_{i (L)} &Element; N^{F}}^{F}}{E_{v_{j (L)}, v_{j (L)} &Element; N}}

其中，表示在两个具有某一功能的蛋白质之间的边的数目，并且这些蛋白质和蛋白质i之间的距离等于L；N表示蛋白质集合，并且集合中元素和蛋白质v_i之间的距离也等于L，但是这些蛋白质没有某一特定的功能；因此，N^F是集合N的子集；

A D P F {(i)}_{L} = \frac{\underset{v_{i (L)} &Element; N^{F}}{Σ} {Deg}_{v_{i (L)}}^{F}}{| N^{F} |}

其中，Deg_vi(L)是具有某一特定功能的蛋白质i(L)的度值，即邻居蛋白质的数目；

A D P W P F {(i)}_{L} = \frac{{Σe}_{i, i (1)} \times {Deg}_{v_{i (1)}} + e_{i (1), i (2)} \times {Deg}_{v_{i (2)}} + ... ... + e_{i (L - 1), i (L)}^{F} \times {Deg}_{v_{i (L)}}^{F}}{| N^{F} |}

式中，|N^F|表示集合中元素的数目；

P P {(i)}_{L} = \frac{1}{| N^{F} |} Σ \frac{| N^{I F} |^{2}}{| N^{I} | | N^{F} |}

式中，N^I和N^F表示蛋白质集合，其中蛋白质与蛋白质i和具有某一特定功能的蛋白质之间的距离为L；N^IF和集合N^I和N^F的交集，|N^IF|表示交集中元素的数目；

P P L {(i)}_{L} = \frac{{NP}_{i}^{F}}{{NP}^{F}}

其中，NP_i ^F是长度为L的路径数目，在这些路径中顶点和终点蛋白质均具有某一特定的功能，并且中间节点包含蛋白质i；NP^F也是长度为L的路径数目，在这些路径中顶点和终点蛋白质均具有某一特定的功能，但是中间节点不包含蛋白质i；

S4.构建模型识别蛋白质功能

基于网络拓扑结构特征，利用最小冗余最大相关方法选择最优特征子集，基于支持向量机建模工具构建模型，识别蛋白质功能。

其中，作为一种具体的可实施优化方案，步骤S1的具体方法为：

S11.从HIPPIE数据库收集人类蛋白质-蛋白质相互作用数据，去除自相互作用、重复相互作用数据和相互作用信任得分为0的相互作用数据；

S12.根据蛋白质获得号，从UniprotKB/Swiss-Prot数据库获取蛋白质一级结构数据，计算蛋白质一级结构描述符，利用蛋白质相互作用信息得分，构建节点和边加权的蛋白质相互作用网络，同时采用蛋白质一级结构描述符和蛋白质-蛋白质相互作用信任得分对网络中的节点和边加权；网络中，节点表示蛋白质，边表示相互作用，节点权重是蛋白质一级结构特征，边权重是相互作用信任得分；

其中，S12所述蛋白质一级结构描述符包括氨基酸组成、二肽组成、各种自相关描述符以及组成、转变和分布。

另外，作为一种具体的可实施优化方案，步骤S2的具体方法为：

S21.从UniProtKB/Swiss-Prot数据库中收集基于基因本体论注释的有分子功能和生物过程注释信息的蛋白质，删除具有理论推测信息注释的蛋白质；

S22.从NoGO数据库收集没有某一特定功能注释的蛋白质；

S23.根据收集的具有某一特定功能的蛋白质和没有这一特定功能的蛋白质构建数据集。

另外优选地，步骤S4所述支持向量机的参数采用格点搜索方法进行优化，优化后的支持向量机的参数如下：

支持向量机核函数设置为径向基核函数，对于GO：0044281，惩罚参数C设置为2¹，核函数参数设置为2^-1；对于GO：0044822，惩罚参数C设置为2⁵，核函数参数设置为2^-1；对于GO：0007165，惩罚参数C设置为2³，核函数参数设置为2_- ³；对于GO：0010467，惩罚参数C设置为2¹⁵，核函数参数设置为2¹；对于GO：0045087，惩罚参数C设置为2³，核函数参数设置为2^-1；对于GO：0044267，惩罚参数C设置为2³，核函数参数设置为2^-15；对于GO：0007596，惩罚参数C设置为2¹¹，核函数参数设置为2^-5。

本发明在构建蛋白质功能识别方法中，步骤S1收集具有较高可信度的人类蛋白质相互作用信息，步骤S2收集较高可信度的蛋白质功能注释信息以及不具有某一特定功能的蛋白质，步骤S3提出能够表征蛋白质全局和局部网络拓扑结构信息的特征，步骤S4优化蛋白质网络拓扑结构特征和支持向量机参数，构建最优模型识别蛋白质功能。保证了该方法预测结果的显著优异性。

另外，上述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，在蛋白质功能识别、蛋白组学研究以及潜在药物靶标的识别方面的应用，也都应在本发明的保护范围之内。

本发明通过大量的研究和探索，提出了一种新的蛋白质功能表征方法——网络拓扑结构特征，该表征方法不仅包含了蛋白质一级结构信息，而且还包括了全局和局部网络拓扑结构信息，将其与最小冗余最大相关特征选择方法和支持向量机建模方法相结合，建立了蛋白质功能识别新方法。并且基于构建的数据集，进行了10-折交叉验证，并与现有文献报道方法进行了比较，预测结果显著优于文献报道方法，表明了本发明方法的有效性和显著进步性。

本发明具有以下有益效果：

本发明提供的蛋白质功能识别方法基于蛋白质相互作用网络的方法识别蛋白质功能，不仅克服了传统方法的缺点，而且具有快速和高效等特点，在蛋白组学研究中具有重要的实际应用意义。

本发明的蛋白质功能识别方法中，构建了节点和边加权的蛋白质相互作用网络，通过引入节点权重和边权重，解决克服了现有方法通常只把蛋白质考虑为一个单纯的数学上的节点，忽视了蛋白质的物理化学等性质，并且没有考虑来自于实验的蛋白质相互作用数据的假阳性问题。

同时，本发明从蛋白质相互作用网络方面提出了新的具有全局和局部拓扑结构信息的蛋白质表征方法，本发明的网络拓扑结构特征相对于传统的功能域组成和本体论组成等蛋白质表征方法，具有显著的预测优势，对序列相似性和采样具有鲁棒性。

本发明的蛋白质功能识别方法简单、快速和准确，有望用于蛋白组学等研究领域。

附图说明

图1为本发明流程示意图。

图2为10折交叉验证的受试者操作特征曲线和精度-召回曲线。

图3为10折交叉验证的统计平均结果。

图4为各种方法的10折交叉验证结果。

具体实施方式

以下结合说明书附图和具体实施例来进一步说明本发明，但实施例并不对本发明做任何形式的限定。在不背离本发明精神和实质的情况下，对本发明方法、步骤或条件所作的简单修改或替换，均属于本发明的范围。

除非特别说明，本发明采用的试剂、方法和设备为本技术领域常规试剂、方法和设备。除非特别说明，以下实施例所用试剂和材料均为市购。

实施例1

1、收集数据集，构建节点和边加权的蛋白质相互作用网络

从HIPPIE数据库收集人类蛋白质-蛋白质相互作用数据，去除自相互作用、重复相互作用以及相互作用得分为0的相互作用。根据蛋白质获得号，从UniprotKB/Swiss-Prot数据库获取蛋白质一级结构数据，计算氨基酸组成、二肽组成、自相关描述符和组成、转变和分布等蛋白质一级结构描述符。构建节点和边加权的蛋白质-蛋白质相互作用网络，节点表示蛋白质，边表示相互作用，节点权重是蛋白质一级结构特征，边权重是相互作用信任得分。

2、收集蛋白质功能注释数据，构建数据集

从UniProtKB/Swiss-Prot数据库收集基于基因本体论有分子功能和生物过程注释信息的蛋白质，删除具有理论推测信息注释的蛋白质。从NoGO数据库收集没有某一特定功能注释的蛋白质。根据收集的具有某一特定功能的蛋白质和没有这一特定功能的蛋白质构建数据集。

3、基于网络拓扑结构特征表征蛋白质

对于一个给定的蛋白质i,采用广度优先搜索算法和路径长度参数L搜索蛋白质相互作用网络，根据获得的结果计算8类具有全局和局部信息的网络拓扑结构特征：

A P V W {(i)}_{L} = \frac{Σ \frac{v_{i} \times v_{i (1)} \times v_{i (2)} \times ... ... \times v_{i (L)}^{F}}{1 \times 2 \times 3 \times ... ... \times L}}{N P}

P W P F P {(i)}_{L} = \frac{Σ (e_{i, i (1)} + e_{i (1), i (2)} + ... ... + e_{i (L - 1), i (L)}^{F})}{Σ (e_{i, i (1)} + e_{i (1), i (2)} + ... ... + e_{i (L - 1), i (L)})}

A P W P F {(i)}_{L} = \frac{Σ (e_{i, i (1)} + e_{i (1), i (2)} + ... ... + e_{i (L - 1), i (L)}^{F})}{| N^{F} |}

P I N P F P {(i)}_{L} = \frac{E_{v_{i (L)}, v_{i (L)} &Element; N^{F}}^{F}}{E_{v_{j (L)}, v_{j (L)} &Element; N}}

A D P F {(i)}_{L} = \frac{\underset{v_{i (L)} &Element; N^{F}}{Σ} {Deg}_{v_{i (L)}}^{F}}{| N^{F} |}

A D P W P F {(i)}_{L} = \frac{{Σe}_{i, i (1)} \times {Deg}_{v_{i (1)}} + e_{i (1), i (2)} \times {Deg}_{v_{i (2)}} + ... ... + e_{i (L - 1), i (L)}^{F} \times {Deg}_{v_{i (L)}}^{F}}{| N^{F} |}

式中，|N^F|表示集合中元素的数目；

P P {(i)}_{L} = \frac{1}{| N^{F} |} Σ \frac{| N^{I F} |^{2}}{| N^{I} | | N^{F} |}

P P L {(i)}_{L} = \frac{{NP}_{i}^{F}}{{NP}^{F}}

其中，NP_i ^F是长度为L的路径数目，在这些路径中顶点和终点蛋白质均具有某一特定的功能，并且中间节点包含蛋白质i；NP^F也是长度为L的路径数目，在这些路径中顶点和终点蛋白质均具有某一特定的功能，但是中间节点不包含蛋白质i。

连接8种网络拓扑结构特征为一个17670维的特征向量表征蛋白质。

4、构建模型识别蛋白质功能

基于17670维的特征向量，采用最小冗余最大相关方法优化最优特征子集。采用格点搜索方法优化支持向量机参数，构建模型。利用预测准确度、敏感性、特异性、精确度、马氏相关系数、受试者操作特征曲线和精度-召回曲线评估模型预测性能。

5、结果

(1)使用最小冗余最大相关算法分别从17670维的特征向量中构建了包含5,10,15,……,1000个特征的200个数据集。支持向量机核函数为径向基核函数，采用格点搜索方法对惩罚参数C以2²为步长从2^-5到2¹⁵、核参数γ以2^-2为步长从2³到2^-15进行组合优化。基于最优特征子集和最优支持向量机参数的10-折交叉验证结果表1和图2所示。

表1.基于最优特征子集和支持向量机的10-折交叉验证结果

对于基因本体论条目0044281，模型获得了74.58％的准确度，75.10％的敏感性，74.05％的特异性，74.32％的精确度和0.4915的马氏相关系数。

对于基因本体论条目0007596，获得了最高95.71％的准确度，97.38％的敏感性，94.05％的特异性，94.24％的精确度和0.9148的马氏相关系数。

对于其他基因本体论条目，模型获得的准确度、敏感性、特异性、精确度和马氏相关系数分别位于[82.91,92.03],[80.07,92.26],[84.78,91.84],[84.19,91.84]和[0.6586,0.8407]区间范围内。受试者操作特征曲线和精度-召回曲线下面积分别位于[0.8101,0.9785]和[0.8094,0.9664]区间范围内。

这些结果表明本发明的网络拓扑结构特征是有效的，并且构建的模型能够识别蛋白质功能。

(2)在数据集的构建中，重复随机选择与正样本相互数目的负样本，构建10个基准数据集。基于最优特征子集和支持向量机参数的10折交叉验证结果如图3所示。

对于基因本体论条目：0044281，准确度、敏感性、特异性、精确度和马氏相关系数的平均值分别是74.62％,74.52％,74.72％,74.68％和0.4924，分别接近表1中结果。对应的标准偏差仅是1.13％,1.38％,1.58％,1.29％和0.0225。

对于基因本体论条目：0007596，准确度、敏感性、特异性、精确度和马氏相关系数的平均值分别是95.81％,97.61％,94.01％,94.23％和0.9170，与表1中结果的差值非常小。对应标准偏差仅是0.58％,0.99％,1.12％,0.97％和0.0114。

对于其他基因本体论条目，准确度、敏感性、特异性和精确度值与表1中结果的差值都在[-3.27％,3.23％]范围之内，马氏相关系数差值都在[-0.0346,0.0125]范围之内。

这些结果表明，本发明方法对负样本的选择具有鲁棒性，负样本仅选择1次是合理的。

(3)采用CD-HIT软件对数据集中的蛋白质进行序列比对，删除序列相似性大于40％的蛋白质，构建非冗余蛋白质功能数据集。基于最优特征子集和支持向量机模型的10-折交叉验证如表1所示。

对于基因本体论条目：0044281，虽然获得了最低的准确度、敏感性、特异性、精确度和马氏相关系数，但是仅比基准数据集结果低了2.03％，3.77％，0.29％，1.21％和0.0404。

对于基因本体论条目：0044822，0007165，0010467,0045087和0044267，非冗余数据集和基准数据集准确度的最大差值为3.25％，最小仅为0.84％。

对于基因本体论条目：0007596，虽然非冗余数据集的准确度、敏感性、特异性、精确度和马氏相关系数降低了大概18％，但是本发明方法仍然获得了78.21％的准确度，77.43％的敏感性，78.99％的特异性，78.66％的准确度和0.5643的马氏相关系数。

这些结果表明，发明方法对蛋白质序列相似性具有鲁棒性。

(4)基于构建的基准数据集，采用传统的序列相似性和网络邻居方法对蛋白质功能进行了识别。在序列相似性方法中，采用BLOSUM50矩阵和Needleman-Wunsch算法比较两个蛋白质的序列相似性，一个具有最高序列相似性的蛋白质的功能被赋予查询蛋白质。在网络邻居方法中，网络邻居蛋白质中具有最大比例的功能被赋予查询蛋白质。本发明方法和两种传统方法的10-折交叉验证结果如图4所示。

对于所有的基因本体论条目，虽然基于网络邻居的方法获得了最高的预测敏感性：82.30％,93.73％,92.73％,99.54％,99.01％,97.67％和98.57％，但是却获得了最低的准确度(仅39.45％,17.59％,18.25％,14.11％,10.47％,12.50％和14.29％)、特异性、精确度和马氏相关系数。表明网络邻居方法通常导致结果具有较高的假阳性。序列相似性方法获得的准确度、特异性、精确度和马氏相关系数分别在[66.84％,72.96％],[59.09％,67.74％],[64.76％,70.79％]和[0.3402,0.4617]范围之内。

本发明方法获得了最高的准确度、特异性、精确度和马氏相关系数，分别在[74.58％,95.17％],[74.05％,94.05％],[74.32％,94.24％]和[0.4915,0.9148]范围内。这些结果表明，本发明方法优于网络邻居和序列相似性的传统方法，提出的网络拓扑结构特征能够很好的表征蛋白质。

综上所述，本发明基于图论和蛋白质相互作用网络，提出了具有全局和局部信息的蛋白质网络拓扑结构表征蛋白质。基于非冗余数据集和重复采样的10折交叉验证结果表明发明方法对序列相似性和采样具有鲁棒性。基准数据集的10折交叉验证结果表明本发明方法显著优于现有文献报道方法，表明了本发明方法的有效性和显著进步性。

Claims

1.一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，其特征在于，包括以下步骤：

S1.收集数据集，构建节点和边加权的蛋白质相互作用网络

S2.收集蛋白质功能注释数据，构建数据集

S3.基于网络拓扑结构特征表征蛋白质

A P V W {(i)}_{L} = \frac{Σ \frac{v_{i} \times v_{i (1)} \times v_{i (2)} \times ... ... v_{i (L)}^{F}}{1 \times 2 \times 3 \times ... ... \times L}}{N P}

式中，v _i和v _i(L)是给定节点i和i(L)的权重；上角标“F”表示蛋白质v _i(L)具有某一功能；v _i和v _i(L)顶点之间的路径距离等于L，并且顶点i,i(1),…,i(L-1),i(L)均包含在这条路径上；NP是距离等于L的路径数目；

P W P F P {(i)}_{L} = \frac{Σ (e_{i, i (1)} + e_{i (1), i (2)} + ... ... + e_{i (L - 1), i (L)}^{F})}{Σ (e_{i, i (1)} + e_{i (1), i (2)} + ... ... + e_{i (L - 1), i (L)})}

其中，e _i,i(1)是两个顶点i和i(1)之间的边权重，中上角标“F”表示i(1)具有某一功能；

A P W P F {(i)}_{L} = \frac{Σ (e_{i, i (1)} + e_{i (1), i (2)} + ... ... + e_{i (L - 1), i (L)}^{F})}{| N^{F} |}

式中，N ^F和|N ^F|分别表示具有某一功能的蛋白质集合，以及集合中元素的数目；

P I N P F P {(i)}_{L} = \frac{E_{v_{i (L)}, v_{i (L)} &Element; N^{F}}^{F}}{E_{v_{j (L)}, v_{j (L)} &Element; N}}

其中，表示在两个具有某一功能的蛋白质之间的边的数目，并且这些蛋白质和蛋白质i之间的距离等于L；N表示蛋白质集合，并且集合中元素和蛋白质v _i之间的距离也等于L，但是这些蛋白质没有某一特定的功能；因此，N ^F是集合N的子集；

A D P F {(i)}_{L} = \frac{\underset{v_{i (L)} &Element; N^{F}}{Σ} {Deg}_{v_{i (L)}}^{F}}{| N^{F} |}

其中，Deg _vi(L)是具有某一特定功能的蛋白质i(L)的度值，即邻居蛋白质的数目；

A D P W P F {(i)}_{L} = \frac{{Σe}_{i, i (1)} \times {Deg}_{v_{i (1)}} + e_{i (1), i (2)} \times {Deg}_{v_{i (2)}} + ... ... + e_{i (L - 1), i (L)}^{F} \times {Deg}_{v_{i (L)}}^{F}}{| N^{F} |}

式中，|N ^F|表示集合中元素的数目；

P P {(i)}_{L} = \frac{1}{| N^{F} |} Σ \frac{| N^{I F} |^{2}}{| N^{I} | | N^{F} |}

式中，N ^I和N ^F表示蛋白质集合，其中蛋白质与蛋白质i和具有某一特定功能的蛋白质之间的距离为L；N ^IF和集合N ^I和N ^F的交集，|N ^IF|表示交集中元素的数目；

P P L {(i)}_{L} = \frac{{NP}_{i}^{F}}{{NP}^{F}}

其中，是长度为L的路径数目，在这些路径中顶点和终点蛋白质均具有某一特定的功能，并且中间节点包含蛋白质i；也是长度为L的路径数目，在这些路径中顶点和终点蛋白质均具有某一特定的功能，但是中间节点不包含蛋白质i；

S4.构建模型识别蛋白质功能

2.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，其特征在于，步骤S1的具体方法为：

3.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，其特征在于，步骤S2的方法为：

S22.从NoGO数据库收集没有某一特定功能注释的蛋白质；

4.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，其特征在于，步骤S4所述支持向量机的参数采用格点搜索方法进行优化，优化后的支持向量机的参数如下：

支持向量机核函数设置为径向基核函数，对于GO：0044281，惩罚参数C设置为2¹，核函数参数设置为2^-1；对于GO：0044822，惩罚参数C设置为2⁵，核函数参数设置为2^-1；对于GO：0007165，惩罚参数C设置为2³，核函数参数设置为2^-3；对于GO：0010467，惩罚参数C设置为2¹⁵，核函数参数设置为2¹；对于GO：0045087，惩罚参数C设置为2³，核函数参数设置为2^-1；对于GO：0044267，惩罚参数C设置为2³，核函数参数设置为2^-15；对于GO：0007596，惩罚参数C设置为2¹¹，核函数参数设置为2^-5。

5.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，其特征在于，步骤S1收集具有较高可信度的人类蛋白质相互作用信息。

6.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，其特征在于，步骤S2收集较高可信度的蛋白质功能注释信息以及不具有某一特定功能的蛋白质。

7.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，其特征在于，步骤S3提出能够表征蛋白质全局和局部网络拓扑结构信息的特征。

8.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法，其特征在于，步骤S4优化蛋白质网络拓扑结构特征和支持向量机参数，构建最优模型识别蛋白质功能。

9.权利要求1～8任一所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法在蛋白质功能识别方面的应用。

10.权利要求1～8任一所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法在蛋白组学研究以及潜在药物靶标的识别方面的应用。