CN102841985A

CN102841985A - 一种基于结构域特征的关键蛋白质识别方法

Info

Publication number: CN102841985A
Application number: CN2012102828737A
Authority: CN
Inventors: 王建新; 成颖佼; 彭玮; 李敏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2012-08-09
Filing date: 2012-08-09
Publication date: 2012-12-26
Anticipated expiration: 2032-08-09
Also published as: CN102841985B

Abstract

本发明公开了一种基于结构域特征的关键蛋白质识别方法。对于物种的全部蛋白质，该方法首先通过数据库或进行蛋白质序列分析等得到结构域信息，在结构域信息基础上统计各个结构域类型在蛋白质中出现次数，通过统计结果计算每个蛋白质的权重，权重越大蛋白质成为关键蛋白质的可能性越大。该方法简单有效，且仅基于蛋白质结构域信息，不依赖蛋白质相互作用网络信息等，避免了生物实验所消耗的大量人力物力。通过与随机方法比较，该方法能够较准确的识别关键蛋白质。

Description

一种基于结构域特征的关键蛋白质识别方法

技术领域

本发明属于系统生物学领域，涉及一种基于结构域特征的关键蛋白质识别方法。

背景技术

蛋白质是构成一切细胞和组织结构必不可少的成分，是生命活动最重要的物质基础。细胞中并不是每个蛋白质都具有同等重要性，而是不同的蛋白质对生命活动的重要性不尽相同。通常那些被剔除后造成有关生物功能丧失，并导致生物体无法生存或致病的蛋白质被称为关键蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息，特别是在疾病诊疗、药物标靶设计、确定合成生物学上最小限度基因组（即包括一个物种全部关键基因）有重要的应用前景。

目前，用于识别关键蛋白质的方法主要有三种：

（1）生物实验测定方法

主要包括SGK（single gene knockouts）、RNA干扰（RNA interference）、CK（conditional knockouts）和WTM（whole-genome transposon mutagenesis）等方法。通过生物实验可以准确地测定某一环境下的单个或几个关键蛋白质。但长期以来，生物实验方法因细胞培养等技术上的要求，只能在动物模型等上完成，如SGK基因敲除方法以小鼠建立动物模型。建立动物模型需要较长时间，进而观察和分析实验结果。另外，感染性细菌类生物，针对其进行关键蛋白质生物实验可行性较低。除耗时长久和物种局限外，生物实验成本十分昂贵且需投入大量人力物力。

（2）基于多信息集成的分析方法

为了提高识别关键蛋白质的准确率，有研究通过已知数据库中的蛋白质功能注释、蛋白质长度、基因表达、亚细胞定位、蛋白质相互作用网络等信息融合集成来评估蛋白质是否具关键性。基于多信息集成的分析方法大多使用机器学习等方法，如支持向量机，需已知部分关键蛋白质进行训练和分类。同时，多种数据信息虽然能够一定程度的校准关键蛋白质识别准确率，但各种评估关键蛋白质因素有其应用局限性。例如，用来评估关键性的流平衡分析FBA（flux balanceanalyses）需要在给定的特殊环境条件下对营养获取量和生物出产量有明确控制；载点（Load Points）和瓶颈（Choke Points）限于评估酶蛋白质是否具关键性。

（3）基于蛋白质相互作用信息进行拓扑识别

对关键蛋白质进行拓扑识别时，主要将蛋白质相互作用信息表示为无向图，即蛋白质相互作用网络，蛋白质抽象为图中对应结点。关键蛋白质为其中特殊结点，分析特殊结点所具网络拓扑特征，通过应用网络拓扑特征识别特殊结点。关键蛋白质所具网络拓扑特征主要包括中心性特征和相互作用边特征、功能模块特征等。

拓扑识别关键蛋白质更适用于研究已经较为成熟的模式生物。相对于模式生物如酵母等，多数种类物种没有较为可靠的蛋白质相互作用网络，或蛋白质相互作用网络规模较小。基于蛋白质相互作用网络上进行关键蛋白质识别，识别水平依赖于蛋白质相互作用网络。不同蛋白质相互作用网络对关键蛋白质识别的质量有较大影响。同一物种不同数据库中蛋白质相互作用网络不尽相同，所识别关键蛋白质因此不尽相同。

因此，有必要设计一种全新的关键蛋白质识别方法。

发明内容

本发明所要解决的技术问题是提供一种基于结构域特征的关键蛋白质识别方法，该基于结构域特征的关键蛋白质识别方法简单有效，且仅基于蛋白质结构域信息，不依赖蛋白质相互作用网络信息等，避免了生物实验所消耗的大量人力物力。

发明的技术解决方案如下：

一种基于结构域特征的关键蛋白质识别方法，其特征在于，包括以下步骤：

步骤1：获取某一物种S的全部蛋白质，并获取每个蛋白质P_k的结构域类型集合D(S,P_k)={D₁,D₂,...D_t...}；

为物种S的全部结构域类型集合；

步骤2：统计每个结构域类型D_i在该物种S全部蛋白质中的出现次数f_Di；

步骤3：计算各个蛋白质P_k的权重w_k，将各蛋白质按照权重w_k排序，权重w_k越大表明该权重w_k对应的蛋白质P_k越关键。

步骤2的具体过程为：首先初始化物种S的全部结构域类型集合D(S)为空，并开始遍历该物种S的全部蛋白质；对于蛋白质P_k，检查蛋白质P_k拥有的全部结构域类型集合D(S,P_k)中的每个元素D_t，若结构域类型D_t在D(S)中，则次数值f_Dt＝f_Dt+1，否则将结构域类型D_t加入集合D(S)中并设置次数值f_Dt＝1；

遍历完所有的蛋白质的包含的所有元素后，输出各个元素D_t的次数值f_Dt。

步骤3中，蛋白质P_k对应的权重w_k的计算公式如下：

w_{k} = \{\begin{matrix} \underset{D_{i} &Element; D (S, P_{k})}{Σ} \frac{1}{f_{D_{i}}} & D (S, P_{k}) &NotEqual; φ \\ 0 & D (S, P_{k}) = φ \end{matrix} .

【根据对现有可获得多类物种数据（包含已知关键蛋白质数据和已知蛋白质结构域数据）的分析，发现含有f_Di越低结构域类型的蛋白质成为关键蛋白质的可能性越大，以此发现作为衡量一个蛋白质成为关键蛋白质的权重。f_Di的倒数代表此结构域类型D_i给出的权重，由加权值给出单个蛋白质权重。D_i是属于蛋白质P_k的结构域类型。若

蛋白质P_k的权重w_k为属于蛋白质P_k的各个结构域类型D_i的f_Di倒数之和；若则w_k＝0。】

有益效果：

本发明基于对已知关键蛋白质与结构域特征相关关系的发现，提出了一种基于结构域特征的关键蛋白质识别方法（EPD）。该方法不需要其它大量辅助信息，如较高精确度的蛋白质相互作用网络，识别关键蛋白质没有物种限制和其它要求。识别一个物种的关键蛋白质时，仅根据该物种拥有的全部蛋白质信息就能够较准确的识别大量具有生物意义的关键蛋白质，避免了生物实验方法耗费大量人力物力和资金的缺陷，不依赖于蛋白质相互作用网络信息等。

对于物种的全部蛋白质，该方法首先通过数据库或进行蛋白质序列分析等得到结构域信息，在结构域信息基础上统计各个结构域类型在蛋白质中出现次数，通过统计结果计算每个蛋白质的权重，权重越大蛋白质成为关键蛋白质的可能性越大。该方法简单有效，且仅基于蛋白质结构域信息，不依赖蛋白质相互作用网络信息等，避免了生物实验所消耗的大量人力物力。通过与随机方法比较，该方法能够较准确的识别关键蛋白质。

本发明的方法摆脱了现有普遍依赖于蛋白质相互作用网络数据的计算方法，不受蛋白质相互作用网络普遍存在的比例较高的假阳性和假阴性影响，能够在无需获得辅助信息的情况下，完全基于蛋白质信息，有效地识别关键蛋白质，为生物学家进行关键蛋白质识别的实验和进一步研究提供有价值的参考信息。

附图说明

图1为基于结构域特征的关键蛋白质识别方法（EPD）的总体流程图；

图2为不同物种下用结构域特征识别关键蛋白质方法和十次随机方法识别关键蛋白质的PPV曲线比较（图A-L分别为CAEEL YEAST DANRE HUMANMOUSE ACIAD ECOLI FRATN HAEIN PSEAB SALTI STAAN STAA8这13个物种的对比图）。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

基于对已知关键蛋白质的结构域特征发现，EPD将仅根据蛋白质的结构域信息来识别关键蛋白质。在识别过程中，结构域特征是指一种结构域类型在物种全部蛋白质的具体个数蛋白质中出现情况。给定一个物种S的全部蛋白质及其结构域或序列组成（可通过相关模型得出结构域，如隐形马尔科夫模型等），给出蛋白质成为关键蛋白质的概率排序或识别出此物种所拥有的关键蛋白质。

基于结构域特征的关键蛋白质识别方法EPD的整个流程如图1所示，可以划分为以下几个步骤：

（1）建立物种全部蛋白质及每个蛋白质的结构域信息。输入该物种S的全部蛋白质，通过现有数据库如Pfam（http://pfam.sanger.ac.uk/）或序列比对分析等，获得每个蛋白质P_k对应的结构域类型集合D(S,P_k)={D₁,D₂,...D_i...}。同时，

定义为该物种所拥有的全部结构域类型集合，即D(S,P_k)集合内任一结构域类型D_i∈D(S)。

获取结构域类型集合D(S,P_k)，例如数据库方式，在Pfam中物种S的每一个蛋白质的结构域类型组成信息为已知。如物种YEAST的蛋白质P38995由PF00122，PF00702，PF00403三种结构域类型所组成，即D(YEAST，P38995)={PF00122，PF00702，PF00403}。

（2）统计每个结构域类型D_i在该物种S全部蛋白质中的f_Di个蛋白质出现次数。对于蛋白质P_k，如果拥有结构域信息，则拥有集合D(S,P_k)大小个不同结构域类型，同一结构域类型D_i在蛋白质P_k中可能有多个。方法EPD首先初始化物种S的全部结构域类型集合D(S)为空，D(S)内每个元素D_i对应的f_Di未知；遍历物种S的全部蛋白质，遍历到蛋白质P_k时，检查蛋白质P_k拥有的全部结构域类型集合D(S,P_k)内每一元素D_t。不考虑同一结构域类型D_t在一个蛋白质P_k内的出现次数，若结构域类型D_t在D(S)中，则f_Dt＝f_Dt+1，否则将结构域类型D_t加入集合D(S)中并设置f_Dt=1。遍历完全部蛋白质，可确定结构域类型D_i的f_Di统计数据。

（3）计算各个蛋白质P_k权重。根据已知不同结构域类型D_i的f_Di，基于结构域特征与蛋白质关键性成反比的发现，对应于每一个蛋白质P_k给出权重w_k，定义为：

w_{k} = \{\begin{matrix} \underset{D_{i} &Element; D (S, P_{k})}{Σ} \frac{1}{f_{D_{i}}} & D (S, P_{k}) &NotEqual; φ \\ 0 & D (S, P_{k}) = φ \end{matrix} - - - (1)

式（1）中，w_k为一个蛋白质P_k的权重，D_t为该蛋白质当中的第t类结构域，f_Dt为D_t结构域类型在物种S的全部蛋白质中依照多少个蛋白质中出现数据所得。若

蛋白质P_k的权重w_k为属于蛋白质P_k的各个结构域类型D_i的f_Di倒数之和；若

则w_k=0。

根据权重，对蛋白质成为关键蛋白质给出识别依据。将权重由大到小的排序，对应的蛋白质成为关键蛋白质的概率也由大到小变化。定义N（S）为物种S在标准数据集中所得关键蛋白质数目，取前N（S）个蛋白质为识别的关键蛋白质。如物种YEAST的全部蛋白质数目为6630个，通过DEG6.5、MIPS、SGD和SGDP四个数据库可获取物种YEAST的关键蛋白质数目为1272个，即N（S）=1272。物种S不同，则N（S）不同。

为了验证方法EPD的有效性，我们将方法EPD应用于13个物种上。从UniProt数据库中处理可以获得13个物种分别的全部蛋白质信息。13个物种分别是Caenorhabditis elegans（CAEEL），Saccharomyces cerevisiae（strain ATCC204508 S288c）（YEAST），Danio rerio（DANRE），Homo sapiens（HUMAN），Mus musculus（MOUSE），Acinetobacter baylyi ADP1（ACIAD），Escherichia coliMG1655II（ECOLI），Francisella novicida U112（FRATN），Haemophilus influenzaeRd KW20（HAEIN），Pseudomonas aeruginosa UCBPP-PA14（PSEAB），Salmonellaenterica（SALTI），serovar Typhi Staphylococcus aureus N315（STAAN）和Staphylococcus aureus NCTC 8325（STAA8）。括号中为各物种名称简称。通过DEG6.5、MIPS、SGD和SGDP四个数据库，再结合UniProt中所得蛋白质信息，处理可以获得13个物种的关键蛋白质，作为判定识别关键蛋白质方法准确程度的标准数据集。从数据库Pfam 25.0中处理可以获得13个物种全部蛋白质的结构域信息。

首先，我们将方法EPD应用于13个物种上的结果和随机识别结果进行比较分析，并将识别的关键蛋白质与上述标准数据集进行比较分析。识别出来的关键蛋白质用positive predictive value（PPV）来评估，计算如下：

PPV = \frac{TP}{TP + FP} - - - (2)

式（2）中PPV为识别的关键蛋白质中正确识别的比例。其中，TP（true positives）是识别出的关键蛋白质中的确为关键蛋白质的数目，FP(false positives）是识别出的关键蛋白质中错误识别的数目，即实际为非关键蛋白质的数目。图2给出了不同物种下EPD方法和十次随机方法的PPV曲线。依上所述，当识别方法越正确，即关键蛋白质与结构域特征呈一定反比关系越明显时，PPV值应越高。

从图2可以看出，13种物种的EPD方法PPV曲线均普遍高于十次随机方法PPV曲线，说明EPD方法非随机发生，具有很强的生物意义。

表1描述了当EPD方法识别不同物种的关键蛋白质时，被截取的排序在前P1百分比的蛋白质的PPV值。从表1中可以看出，各物种PPV值均随着P1的增加而递减，即排序越前面蛋白质里的关键蛋白质越多。这说明EPD方法在识别过程中将关键蛋白质尽可能置前，即关键蛋白质的确被优先排序在前，其有效的识别了关键蛋白质。

表1 不同物种下用结构域特征识别关键蛋白质的PPV变化比较

为了进一步了解EPD方法识别出的关键蛋白质是否的确为关键蛋白质，用Correlation Coefficient（CC）来表述识别出的关键蛋白质集合与标准数据集的相关程度，计算如下：

CC = \frac{n Σ_{i = 1}^{n} x_{i} y_{i} - Σ_{i = 1}^{n} x_{i} \cdot Σ_{i = 1}^{n} y_{i}}{\sqrt{n Σ_{i = 1}^{n} {x_{i}}^{2} - {(Σ_{i = 1}^{n} x_{i})}^{2}} \cdot \sqrt{n Σ_{i = 1}^{n} {y_{i}}^{2} - {(Σ_{i = 1}^{n} {y_{i}}^{2})}^{2}}} - - - (3)

其中n代表物种S所拥有的全部蛋白质数目。对于一个蛋白质P_i，如果在标准数据集中P_i为关键蛋白质，则x_i=1，否则x_i=0，如果计算方法识别P_i为关键蛋白质则y_i=1，否则y_i=0。

表2描述了用EPD方法、随机方法识别的物种S关键蛋白质与标准数据集中关键蛋白质的相关程度。从表2中可以看出，随机识别出的关键蛋白质与标准数据集中关键蛋白质的CC在0上下微弱摆动，呈现不相关关系。用EPD识别出的关键蛋白质与标准数据集中关键蛋白质的CC均大于0，且远远大于对应的随机识别出的关键蛋白质与标准数据集中关键蛋白质的CC，充分说明EPD方法能有效识别出关键蛋白质。

表2 不同物种下识别关键蛋白质方法的相关系数比较

Claims

1.一种基于结构域特征的关键蛋白质识别方法，其特征在于，包括以下步骤：

步骤1：获取某一物种S的全部蛋白质，并获取每个蛋白质P_k的结构域类型集合D(S,P_k)={D₁,D₂,...D_t…}；

为物种S的全部结构域类型集合；

2.根据权利要求1所述的基于结构域特征的关键蛋白质识别方法，其特征在于，步骤2的具体过程为：首先初始化物种S的全部结构域类型集合D(S)为空，并开始遍历该物种S的全部蛋白质；对于蛋白质P_k，检查蛋白质P_k拥有的全部结构域类型集合D(S,P_k)中的每个元素D_t，若结构域类型D_t在D(S)中，则次数值f_Dt＝f_Dt+1，否则将结构域类型D_t加入集合D(S)中并设置次数值f_Dt＝1；

3.根据权利要求1或2所述的基于结构域特征的关键蛋白质识别方法，其特征在于，步骤3中，蛋白质P_k对应的权重w_k的计算公式如下：

w_{k} = \{\begin{matrix} \underset{D_{i} &Element; D (S, P_{k})}{Σ} \frac{1}{f_{D_{i}}} & D (S, P_{k}) &NotEqual; φ \\ 0 & D (S, P_{k}) = φ \end{matrix} .