CN102841985A - 一种基于结构域特征的关键蛋白质识别方法 - Google Patents
一种基于结构域特征的关键蛋白质识别方法 Download PDFInfo
- Publication number
- CN102841985A CN102841985A CN2012102828737A CN201210282873A CN102841985A CN 102841985 A CN102841985 A CN 102841985A CN 2012102828737 A CN2012102828737 A CN 2012102828737A CN 201210282873 A CN201210282873 A CN 201210282873A CN 102841985 A CN102841985 A CN 102841985A
- Authority
- CN
- China
- Prior art keywords
- protein
- species
- key
- domain
- protein matter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于结构域特征的关键蛋白质识别方法。对于物种的全部蛋白质,该方法首先通过数据库或进行蛋白质序列分析等得到结构域信息,在结构域信息基础上统计各个结构域类型在蛋白质中出现次数,通过统计结果计算每个蛋白质的权重,权重越大蛋白质成为关键蛋白质的可能性越大。该方法简单有效,且仅基于蛋白质结构域信息,不依赖蛋白质相互作用网络信息等,避免了生物实验所消耗的大量人力物力。通过与随机方法比较,该方法能够较准确的识别关键蛋白质。
Description
技术领域
本发明属于系统生物学领域,涉及一种基于结构域特征的关键蛋白质识别方法。
背景技术
蛋白质是构成一切细胞和组织结构必不可少的成分,是生命活动最重要的物质基础。细胞中并不是每个蛋白质都具有同等重要性,而是不同的蛋白质对生命活动的重要性不尽相同。通常那些被剔除后造成有关生物功能丧失,并导致生物体无法生存或致病的蛋白质被称为关键蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息,特别是在疾病诊疗、药物标靶设计、确定合成生物学上最小限度基因组(即包括一个物种全部关键基因)有重要的应用前景。
目前,用于识别关键蛋白质的方法主要有三种:
(1)生物实验测定方法
主要包括SGK(single gene knockouts)、RNA干扰(RNA interference)、CK(conditional knockouts)和WTM(whole-genome transposon mutagenesis)等方法。通过生物实验可以准确地测定某一环境下的单个或几个关键蛋白质。但长期以来,生物实验方法因细胞培养等技术上的要求,只能在动物模型等上完成,如SGK基因敲除方法以小鼠建立动物模型。建立动物模型需要较长时间,进而观察和分析实验结果。另外,感染性细菌类生物,针对其进行关键蛋白质生物实验可行性较低。除耗时长久和物种局限外,生物实验成本十分昂贵且需投入大量人力物力。
(2)基于多信息集成的分析方法
为了提高识别关键蛋白质的准确率,有研究通过已知数据库中的蛋白质功能注释、蛋白质长度、基因表达、亚细胞定位、蛋白质相互作用网络等信息融合集成来评估蛋白质是否具关键性。基于多信息集成的分析方法大多使用机器学习等方法,如支持向量机,需已知部分关键蛋白质进行训练和分类。同时,多种数据信息虽然能够一定程度的校准关键蛋白质识别准确率,但各种评估关键蛋白质因素有其应用局限性。例如,用来评估关键性的流平衡分析FBA(flux balanceanalyses)需要在给定的特殊环境条件下对营养获取量和生物出产量有明确控制;载点(Load Points)和瓶颈(Choke Points)限于评估酶蛋白质是否具关键性。
(3)基于蛋白质相互作用信息进行拓扑识别
对关键蛋白质进行拓扑识别时,主要将蛋白质相互作用信息表示为无向图,即蛋白质相互作用网络,蛋白质抽象为图中对应结点。关键蛋白质为其中特殊结点,分析特殊结点所具网络拓扑特征,通过应用网络拓扑特征识别特殊结点。关键蛋白质所具网络拓扑特征主要包括中心性特征和相互作用边特征、功能模块特征等。
拓扑识别关键蛋白质更适用于研究已经较为成熟的模式生物。相对于模式生物如酵母等,多数种类物种没有较为可靠的蛋白质相互作用网络,或蛋白质相互作用网络规模较小。基于蛋白质相互作用网络上进行关键蛋白质识别,识别水平依赖于蛋白质相互作用网络。不同蛋白质相互作用网络对关键蛋白质识别的质量有较大影响。同一物种不同数据库中蛋白质相互作用网络不尽相同,所识别关键蛋白质因此不尽相同。
因此,有必要设计一种全新的关键蛋白质识别方法。
发明内容
本发明所要解决的技术问题是提供一种基于结构域特征的关键蛋白质识别方法,该基于结构域特征的关键蛋白质识别方法简单有效,且仅基于蛋白质结构域信息,不依赖蛋白质相互作用网络信息等,避免了生物实验所消耗的大量人力物力。
发明的技术解决方案如下:
一种基于结构域特征的关键蛋白质识别方法,其特征在于,包括以下步骤:
步骤2:统计每个结构域类型Di在该物种S全部蛋白质中的出现次数fDi;
步骤3:计算各个蛋白质Pk的权重wk,将各蛋白质按照权重wk排序,权重wk越大表明该权重wk对应的蛋白质Pk越关键。
步骤2的具体过程为:首先初始化物种S的全部结构域类型集合D(S)为空,并开始遍历该物种S的全部蛋白质;对于蛋白质Pk,检查蛋白质Pk拥有的全部结构域类型集合D(S,Pk)中的每个元素Dt,若结构域类型Dt在D(S)中,则次数值fDt=fDt+1,否则将结构域类型Dt加入集合D(S)中并设置次数值fDt=1;
遍历完所有的蛋白质的包含的所有元素后,输出各个元素Dt的次数值fDt。
步骤3中,蛋白质Pk对应的权重wk的计算公式如下:
【根据对现有可获得多类物种数据(包含已知关键蛋白质数据和已知蛋白质结构域数据)的分析,发现含有fDi越低结构域类型的蛋白质成为关键蛋白质的可能性越大,以此发现作为衡量一个蛋白质成为关键蛋白质的权重。fDi的倒数代表此结构域类型Di给出的权重,由加权值给出单个蛋白质权重。Di是属于蛋白质Pk的结构域类型。若蛋白质Pk的权重wk为属于蛋白质Pk的各个结构域类型Di的fDi倒数之和;若则wk=0。】
有益效果:
本发明基于对已知关键蛋白质与结构域特征相关关系的发现,提出了一种基于结构域特征的关键蛋白质识别方法(EPD)。该方法不需要其它大量辅助信息,如较高精确度的蛋白质相互作用网络,识别关键蛋白质没有物种限制和其它要求。识别一个物种的关键蛋白质时,仅根据该物种拥有的全部蛋白质信息就能够较准确的识别大量具有生物意义的关键蛋白质,避免了生物实验方法耗费大量人力物力和资金的缺陷,不依赖于蛋白质相互作用网络信息等。
对于物种的全部蛋白质,该方法首先通过数据库或进行蛋白质序列分析等得到结构域信息,在结构域信息基础上统计各个结构域类型在蛋白质中出现次数,通过统计结果计算每个蛋白质的权重,权重越大蛋白质成为关键蛋白质的可能性越大。该方法简单有效,且仅基于蛋白质结构域信息,不依赖蛋白质相互作用网络信息等,避免了生物实验所消耗的大量人力物力。通过与随机方法比较,该方法能够较准确的识别关键蛋白质。
本发明的方法摆脱了现有普遍依赖于蛋白质相互作用网络数据的计算方法,不受蛋白质相互作用网络普遍存在的比例较高的假阳性和假阴性影响,能够在无需获得辅助信息的情况下,完全基于蛋白质信息,有效地识别关键蛋白质,为生物学家进行关键蛋白质识别的实验和进一步研究提供有价值的参考信息。
附图说明
图1为基于结构域特征的关键蛋白质识别方法(EPD)的总体流程图;
图2为不同物种下用结构域特征识别关键蛋白质方法和十次随机方法识别关键蛋白质的PPV曲线比较(图A-L分别为CAEEL YEAST DANRE HUMANMOUSE ACIAD ECOLI FRATN HAEIN PSEAB SALTI STAAN STAA8这13个物种的对比图)。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
基于对已知关键蛋白质的结构域特征发现,EPD将仅根据蛋白质的结构域信息来识别关键蛋白质。在识别过程中,结构域特征是指一种结构域类型在物种全部蛋白质的具体个数蛋白质中出现情况。给定一个物种S的全部蛋白质及其结构域或序列组成(可通过相关模型得出结构域,如隐形马尔科夫模型等),给出蛋白质成为关键蛋白质的概率排序或识别出此物种所拥有的关键蛋白质。
基于结构域特征的关键蛋白质识别方法EPD的整个流程如图1所示,可以划分为以下几个步骤:
(1)建立物种全部蛋白质及每个蛋白质的结构域信息。输入该物种S的全部蛋白质,通过现有数据库如Pfam(http://pfam.sanger.ac.uk/)或序列比对分析等,获得每个蛋白质Pk对应的结构域类型集合D(S,Pk)={D1,D2,...Di...}。同时,定义为该物种所拥有的全部结构域类型集合,即D(S,Pk)集合内任一结构域类型Di∈D(S)。
获取结构域类型集合D(S,Pk),例如数据库方式,在Pfam中物种S的每一个蛋白质的结构域类型组成信息为已知。如物种YEAST的蛋白质P38995由PF00122,PF00702,PF00403三种结构域类型所组成,即D(YEAST,P38995)={PF00122,PF00702,PF00403}。
(2)统计每个结构域类型Di在该物种S全部蛋白质中的fDi个蛋白质出现次数。对于蛋白质Pk,如果拥有结构域信息,则拥有集合D(S,Pk)大小个不同结构域类型,同一结构域类型Di在蛋白质Pk中可能有多个。方法EPD首先初始化物种S的全部结构域类型集合D(S)为空,D(S)内每个元素Di对应的fDi未知;遍历物种S的全部蛋白质,遍历到蛋白质Pk时,检查蛋白质Pk拥有的全部结构域类型集合D(S,Pk)内每一元素Dt。不考虑同一结构域类型Dt在一个蛋白质Pk内的出现次数,若结构域类型Dt在D(S)中,则fDt=fDt+1,否则将结构域类型Dt加入集合D(S)中并设置fDt=1。遍历完全部蛋白质,可确定结构域类型Di的fDi统计数据。
(3)计算各个蛋白质Pk权重。根据已知不同结构域类型Di的fDi,基于结构域特征与蛋白质关键性成反比的发现,对应于每一个蛋白质Pk给出权重wk,定义为:
式(1)中,wk为一个蛋白质Pk的权重,Dt为该蛋白质当中的第t类结构域,fDt为Dt结构域类型在物种S的全部蛋白质中依照多少个蛋白质中出现数据所得。若蛋白质Pk的权重wk为属于蛋白质Pk的各个结构域类型Di的fDi倒数之和;若则wk=0。
根据权重,对蛋白质成为关键蛋白质给出识别依据。将权重由大到小的排序,对应的蛋白质成为关键蛋白质的概率也由大到小变化。定义N(S)为物种S在标准数据集中所得关键蛋白质数目,取前N(S)个蛋白质为识别的关键蛋白质。如物种YEAST的全部蛋白质数目为6630个,通过DEG6.5、MIPS、SGD和SGDP四个数据库可获取物种YEAST的关键蛋白质数目为1272个,即N(S)=1272。物种S不同,则N(S)不同。
为了验证方法EPD的有效性,我们将方法EPD应用于13个物种上。从UniProt数据库中处理可以获得13个物种分别的全部蛋白质信息。13个物种分别是Caenorhabditis elegans(CAEEL),Saccharomyces cerevisiae(strain ATCC204508 S288c)(YEAST),Danio rerio(DANRE),Homo sapiens(HUMAN),Mus musculus(MOUSE),Acinetobacter baylyi ADP1(ACIAD),Escherichia coliMG1655II(ECOLI),Francisella novicida U112(FRATN),Haemophilus influenzaeRd KW20(HAEIN),Pseudomonas aeruginosa UCBPP-PA14(PSEAB),Salmonellaenterica(SALTI),serovar Typhi Staphylococcus aureus N315(STAAN)和Staphylococcus aureus NCTC 8325(STAA8)。括号中为各物种名称简称。通过DEG6.5、MIPS、SGD和SGDP四个数据库,再结合UniProt中所得蛋白质信息,处理可以获得13个物种的关键蛋白质,作为判定识别关键蛋白质方法准确程度的标准数据集。从数据库Pfam 25.0中处理可以获得13个物种全部蛋白质的结构域信息。
首先,我们将方法EPD应用于13个物种上的结果和随机识别结果进行比较分析,并将识别的关键蛋白质与上述标准数据集进行比较分析。识别出来的关键蛋白质用positive predictive value(PPV)来评估,计算如下:
式(2)中PPV为识别的关键蛋白质中正确识别的比例。其中,TP(true positives)是识别出的关键蛋白质中的确为关键蛋白质的数目,FP(false positives)是识别出的关键蛋白质中错误识别的数目,即实际为非关键蛋白质的数目。图2给出了不同物种下EPD方法和十次随机方法的PPV曲线。依上所述,当识别方法越正确,即关键蛋白质与结构域特征呈一定反比关系越明显时,PPV值应越高。
从图2可以看出,13种物种的EPD方法PPV曲线均普遍高于十次随机方法PPV曲线,说明EPD方法非随机发生,具有很强的生物意义。
表1描述了当EPD方法识别不同物种的关键蛋白质时,被截取的排序在前P1百分比的蛋白质的PPV值。从表1中可以看出,各物种PPV值均随着P1的增加而递减,即排序越前面蛋白质里的关键蛋白质越多。这说明EPD方法在识别过程中将关键蛋白质尽可能置前,即关键蛋白质的确被优先排序在前,其有效的识别了关键蛋白质。
表1 不同物种下用结构域特征识别关键蛋白质的PPV变化比较
为了进一步了解EPD方法识别出的关键蛋白质是否的确为关键蛋白质,用Correlation Coefficient(CC)来表述识别出的关键蛋白质集合与标准数据集的相关程度,计算如下:
其中n代表物种S所拥有的全部蛋白质数目。对于一个蛋白质Pi,如果在标准数据集中Pi为关键蛋白质,则xi=1,否则xi=0,如果计算方法识别Pi为关键蛋白质则yi=1,否则yi=0。
表2描述了用EPD方法、随机方法识别的物种S关键蛋白质与标准数据集中关键蛋白质的相关程度。从表2中可以看出,随机识别出的关键蛋白质与标准数据集中关键蛋白质的CC在0上下微弱摆动,呈现不相关关系。用EPD识别出的关键蛋白质与标准数据集中关键蛋白质的CC均大于0,且远远大于对应的随机识别出的关键蛋白质与标准数据集中关键蛋白质的CC,充分说明EPD方法能有效识别出关键蛋白质。
表2 不同物种下识别关键蛋白质方法的相关系数比较
Claims (3)
2.根据权利要求1所述的基于结构域特征的关键蛋白质识别方法,其特征在于,步骤2的具体过程为:首先初始化物种S的全部结构域类型集合D(S)为空,并开始遍历该物种S的全部蛋白质;对于蛋白质Pk,检查蛋白质Pk拥有的全部结构域类型集合D(S,Pk)中的每个元素Dt,若结构域类型Dt在D(S)中,则次数值fDt=fDt+1,否则将结构域类型Dt加入集合D(S)中并设置次数值fDt=1;
遍历完所有的蛋白质的包含的所有元素后,输出各个元素Dt的次数值fDt。
3.根据权利要求1或2所述的基于结构域特征的关键蛋白质识别方法,其特征在于,步骤3中,蛋白质Pk对应的权重wk的计算公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210282873.7A CN102841985B (zh) | 2012-08-09 | 2012-08-09 | 一种基于结构域特征的关键蛋白质识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210282873.7A CN102841985B (zh) | 2012-08-09 | 2012-08-09 | 一种基于结构域特征的关键蛋白质识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102841985A true CN102841985A (zh) | 2012-12-26 |
CN102841985B CN102841985B (zh) | 2015-04-08 |
Family
ID=47369341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210282873.7A Active CN102841985B (zh) | 2012-08-09 | 2012-08-09 | 一种基于结构域特征的关键蛋白质识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102841985B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077226A (zh) * | 2012-12-31 | 2013-05-01 | 浙江工业大学 | 一种多模态蛋白质构象空间搜索方法 |
CN104156634A (zh) * | 2014-08-14 | 2014-11-19 | 中南大学 | 基于亚细胞定位特异性的关键蛋白质识别方法 |
CN105354441A (zh) * | 2015-10-23 | 2016-02-24 | 上海交通大学 | 构建植物蛋白质互作网络的方法 |
CN105956413A (zh) * | 2016-04-27 | 2016-09-21 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN106372458A (zh) * | 2016-08-31 | 2017-02-01 | 中南大学 | 基于邻居接近中心性和直系同源信息的关键蛋白质识别方法 |
CN107885971A (zh) * | 2017-10-30 | 2018-04-06 | 陕西师范大学 | 采用改进花授粉算法识别关键蛋白质的方法 |
CN112837752A (zh) * | 2021-02-02 | 2021-05-25 | 中南大学 | 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002074901A2 (en) * | 2001-03-19 | 2002-09-26 | Hybrigenics | Protein-protein interaction map inference using interacting domain profile pairs |
CN1560762A (zh) * | 2004-02-26 | 2005-01-05 | 上海交通大学 | 基于字同现频率的主题抽取方法 |
CN101968808A (zh) * | 2010-10-26 | 2011-02-09 | 北京理工大学 | 一种基于仿真特定领域的仿真信息自动排序方法 |
-
2012
- 2012-08-09 CN CN201210282873.7A patent/CN102841985B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002074901A2 (en) * | 2001-03-19 | 2002-09-26 | Hybrigenics | Protein-protein interaction map inference using interacting domain profile pairs |
CN1560762A (zh) * | 2004-02-26 | 2005-01-05 | 上海交通大学 | 基于字同现频率的主题抽取方法 |
CN101968808A (zh) * | 2010-10-26 | 2011-02-09 | 北京理工大学 | 一种基于仿真特定领域的仿真信息自动排序方法 |
Non-Patent Citations (1)
Title |
---|
马照云: "基于结构域聚类的蛋白质结构预测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077226B (zh) * | 2012-12-31 | 2015-10-07 | 浙江工业大学 | 一种多模态蛋白质构象空间搜索方法 |
CN103077226A (zh) * | 2012-12-31 | 2013-05-01 | 浙江工业大学 | 一种多模态蛋白质构象空间搜索方法 |
CN104156634A (zh) * | 2014-08-14 | 2014-11-19 | 中南大学 | 基于亚细胞定位特异性的关键蛋白质识别方法 |
CN104156634B (zh) * | 2014-08-14 | 2017-02-01 | 中南大学 | 基于亚细胞定位特异性的关键蛋白质识别方法 |
CN105354441B (zh) * | 2015-10-23 | 2018-02-02 | 上海交通大学 | 构建植物蛋白质互作网络的方法 |
CN105354441A (zh) * | 2015-10-23 | 2016-02-24 | 上海交通大学 | 构建植物蛋白质互作网络的方法 |
CN105956413B (zh) * | 2016-04-27 | 2019-08-06 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN105956413A (zh) * | 2016-04-27 | 2016-09-21 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN106372458A (zh) * | 2016-08-31 | 2017-02-01 | 中南大学 | 基于邻居接近中心性和直系同源信息的关键蛋白质识别方法 |
CN107885971A (zh) * | 2017-10-30 | 2018-04-06 | 陕西师范大学 | 采用改进花授粉算法识别关键蛋白质的方法 |
CN107885971B (zh) * | 2017-10-30 | 2021-01-15 | 陕西师范大学 | 采用改进花授粉算法识别关键蛋白质的方法 |
CN112837752A (zh) * | 2021-02-02 | 2021-05-25 | 中南大学 | 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法 |
CN112837752B (zh) * | 2021-02-02 | 2022-03-04 | 中南大学 | 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102841985B (zh) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102841985B (zh) | 一种基于结构域特征的关键蛋白质识别方法 | |
Grainger et al. | The invasion criterion: a common currency for ecological research | |
Charlebois et al. | Modeling cell population dynamics | |
Laughlin et al. | Fitness of multidimensional phenotypes in dynamic adaptive landscapes | |
Valdovinos et al. | Niche partitioning due to adaptive foraging reverses effects of nestedness and connectance on pollination network stability | |
Clavel et al. | mvMORPH: an R package for fitting multivariate evolutionary models to morphometric data | |
Ulrich et al. | Species interactions and random dispersal rather than habitat filtering drive community assembly during early plant succession | |
Russel et al. | DAtest: a framework for choosing differential abundance or expression method | |
Matias et al. | Estimates of species extinctions from species–area relationships strongly depend on ecological context | |
CN104008420A (zh) | 一种基于自动编码机的分布式离群点检测方法及系统 | |
CN103093119A (zh) | 一种利用网络结构信息识别显著生物通路的方法 | |
CN103488689A (zh) | 基于聚类的邮件分类方法和系统 | |
Yu et al. | Two community types occur in gut microbiota of large‐sample wild plateau pikas (Ochotona curzoniae) | |
Rachtman et al. | The impact of contaminants on the accuracy of genome skimming and the effectiveness of exclusion read filters | |
US20130304783A1 (en) | Computer-implemented method for analyzing multivariate data | |
González-Álvarez et al. | Comparing multiobjective swarm intelligence metaheuristics for DNA motif discovery | |
Whitehouse et al. | Timesweeper: accurately identifying selective sweeps using population genomic time series | |
Liu et al. | Characteristic gene selection via weighting principal components by singular values | |
Andrews et al. | Modelling dropouts for feature selection in scRNASeq experiments | |
Aimé et al. | Different kinds of genetic markers permit inference of Paleolithic and Neolithic expansions in humans | |
Baruah et al. | Effect of habitat quality and phenotypic variation on abundance‐and trait‐based early warning signals of population collapses | |
Rolshausen et al. | Evolutionary rates standardized for evolutionary space: perspectives on trait evolution | |
Nguyen et al. | Efficient agglomerative hierarchical clustering for biological sequence analysis | |
Alvarado-Serrano et al. | Detecting spatial dynamics of range expansions with geo-referenced genomewide SNP data and the geographic spectrum of shared alleles | |
Francisco et al. | Accuracy and efficiency of algorithms for the demarcation of bacterial ecotypes from DNA sequence data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |