CN111312330A - 一种基于蛋白质节点特性的关键蛋白质识别方法及系统 - Google Patents
一种基于蛋白质节点特性的关键蛋白质识别方法及系统 Download PDFInfo
- Publication number
- CN111312330A CN111312330A CN202010090420.9A CN202010090420A CN111312330A CN 111312330 A CN111312330 A CN 111312330A CN 202010090420 A CN202010090420 A CN 202010090420A CN 111312330 A CN111312330 A CN 111312330A
- Authority
- CN
- China
- Prior art keywords
- protein
- node
- centrality
- interaction network
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 357
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 356
- 238000012509 protein identification method Methods 0.000 title claims abstract description 16
- 230000006916 protein interaction Effects 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012163 sequencing technique Methods 0.000 claims abstract description 41
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 8
- 150000001875 compounds Chemical class 0.000 abstract description 7
- 238000002474 experimental method Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 239000002521 compomer Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 229920002477 rna polymer Polymers 0.000 description 2
- 210000004885 white matter Anatomy 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 1
- 102000007474 Multiprotein Complexes Human genes 0.000 description 1
- 108010085220 Multiprotein Complexes Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003209 gene knockout Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004960 subcellular localization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Physiology (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Crystallography & Structural Chemistry (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于蛋白质节点特性的关键蛋白质识别方法及系统。所述方法首先建立蛋白质相互作用网络并计算网络中所有蛋白质的综合性能;对所有蛋白质按综合性能进行排序并输出排序结果;采用排序筛选方法对排序结果进行评估,识别出关键蛋白质。与现有技术相比,本发明方法不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性,也考虑了节点及它的邻居节点在复合物中的结构特性,能有效地减少单个数据源数据噪声对预测准确性的影响,可以显著提高蛋白质相互作用网络中关键蛋白质的识别准确度,并且可以预测出大量的关键蛋白质,显著提高关键蛋白质的识别效率,解决了生物实验方法成本昂贵且耗时长的问题。
Description
技术领域
本发明涉及系统生物信息学技术领域,特别是涉及一种基于蛋白质节点特性的关键蛋白质识别方法及系统。
背景技术
蛋白质是构成一切细胞和组织结构必不可少的成分,是生命活动最重要的物质基础。细胞中并不是每个蛋白质都具有同等重要性,而是不同的蛋白质对生命活动的重要性不尽相同。通常那些被剔除后造成有关生物功能丧失,并导致生物体无法生存或致病的蛋白质被称为关键蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息,特别是在疾病诊疗、药物标靶设计、确定合成生物学上最小限度基因组(即包括一个物种全部关键基因)方面有重要的应用前景。
通过生物医学实验方法可以识别出生物体内的关键蛋白质,如单基因敲除、RNA(RibonucleicAcid,核糖核酸)干扰和条件性剔除。然而这些传统的方法容易受到实验环境限制、实验周期长、成本高以及适用物种种类有限等条件限制因素的影响,甚至实验方法本身所存在的缺陷使其并不能大规模的应用。随着现代计算机技术的迅猛发展,根据对现有的实验数据中关键蛋白质所呈现出的特性进行分析,采用生物信息学的计算方法预测关键蛋白质逐渐成为研究热点。
已有的研究成果显示,一个蛋白质是否是关键蛋白质取决于这个蛋白质在生物分子网络中所对应节点的拓扑特性和生物功能特性。近些年来,出现了大量的网络中心性预测方法,典型的基于网络拓扑结构的有:度中心性(degree centrality,DC),介数中心性(betweenness centrality,BC),边聚类系数中心性(edge clustering coefficientcentrality,ECC),子图中心性(subgraph centrality,SC)和特征向量中心性(eigenvector centrality,EC)等。由于现有实验技术的限制等问题导致目前获得的相互作用数据并不丰富完善,使得现有的基于蛋白质网络的中心性预测方法并不能高效的预测关键蛋白质。
发明内容
本发明的目的是提供一种基于蛋白质节点特性的关键蛋白质识别方法及系统,以解决采用现有的生物医学实验方法识别关键蛋白质成本昂贵、耗时长、识别效率以及准确性低的问题。
为实现上述目的,本发明提供了如下方案:
一种基于蛋白质节点特性的关键蛋白质识别方法,所述关键蛋白质识别方法包括:
建立蛋白质相互作用网络;
计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
对所有蛋白质按所述综合性能进行排序并输出排序结果;
采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
可选的,所述建立蛋白质相互作用网络,具体包括:
将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。
可选的,所述计算所述蛋白质相互作用网络中所有蛋白质的综合性能,具体包括:
计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
可选的,所述计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性,具体包括:
采用公式计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
根据所述子图的边数和点数,采用公式计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性;其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
可选的,所述根据所述蛋白质节点的复合体度中心性计算混合复合体中心性,具体包括:
广度优先遍历所述蛋白质相互作用网络中蛋白质节点v的邻居节点u,生成蛋白质节点v的邻居节点集合Nv;
根据所述蛋白质节点u的复合体度中心性以及所述蛋白质节点v的邻居节点集合Nv,采用公式计算所述蛋白质节点的复合体平均中心性;其中CAC(v)表示蛋白质节点v的复合体平均中心性;IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性;|Nv|为所述蛋白质节点v的邻居节点集合Nv中邻居节点的节点个数;
根据所述蛋白质节点v的复合体度中心性IDC(v)以及所述蛋白质节点v的复合体平均中心性CAC(v),采用公式CHC(v)=Ncomplex(v)·CAC(v)·IDC2(v)计算所述蛋白质节点v的混合复合体中心性CHC(v);其中Ncomplex(v)表示蛋白质节点v在复合体中出现的次数。
可选的,所述根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能,具体包括:
根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性,采用公式CIBD(v)=a*log2(CHC(v))+b*log2(Den2(v))+c*log2(BC(v))计算所述蛋白质相互作用网络中每一个蛋白质节点的蛋白质权值作为所述蛋白质节点的综合性能;其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值;BC(v)表示所述蛋白质节点v的介数中心性;Den2(v)表示所述蛋白质节点v的局部特性;CHC(v)表示所述蛋白质节点v的混合复合体中心性;a、b、c分别表示从1到10范围间的三个随机参数。
一种基于蛋白质节点特性的关键蛋白质识别系统,所述关键蛋白质识别系统包括:
蛋白质相互作用网络建立模块,用于建立蛋白质相互作用网络;
综合性能计算模块,用于计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
综合性能排序模块,用于对所有蛋白质按所述综合性能进行排序并输出排序结果;
关键蛋白质识别模块,用于采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
可选的,所述蛋白质相互作用网络建立模块具体包括:
蛋白质相互作用网络建立单元,用于将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。
可选的,所述综合性能计算模块具体包括:
介数中心性和局部特性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
复合体度中心性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
混合复合体中心性计算单元,用于根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
综合性能计算单元,用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
可选的,所述介数中心性和局部特性计算单元具体包括:
介数中心性计算子单元,用于采用公式计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
子图生成子单元,用于广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
局部特性计算子单元,用于根据所述子图的边数和点数,采用公式计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性;其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种基于蛋白质节点特性的关键蛋白质识别方法及系统,所述方法首先建立蛋白质相互作用网络并计算所述蛋白质相互作用网络中所有蛋白质的综合性能;对所有蛋白质按所述综合性能进行排序并输出排序结果;采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。与现有技术相比,本发明方法不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性,也考虑了节点及它的邻居节点在复合物中的结构特性,能有效的减少单个数据源数据噪声对预测准确性的影响,可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度,并且可以一次预测出大量的关键蛋白质,显著提高关键蛋白的识别效率,解决了生物实验方法成本昂贵且耗时长的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的流程图;
图2为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的原理图;
图3为采用本发明方法与6种中心性测度DC、BC、LAC、SC、LBCC、EC方法得到的关键蛋白质预测结果的准确度比较图;其中图3(a)为采用本发明方法与6种中心性测度方法预测100个关键蛋白质的预测结果准确度比较图;图3(b)为采用本发明方法与6种中心性测度方法预测200个关键蛋白质的预测结果准确度比较图;图3(c)为采用本发明方法与6种中心性测度方法预测300个关键蛋白质的预测结果准确度比较图;图3(d)为采用本发明方法与6种中心性测度方法预测400个关键蛋白质的预测结果准确度比较图;图3(e)为采用本发明方法与6种中心性测度方法预测500个关键蛋白质的预测结果准确度比较图;图3(f)为采用本发明方法与6种中心性测度方法预测600个关键蛋白质的预测结果准确度比较图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于蛋白质节点特性的关键蛋白质识别方法及系统,以解决采用现有的生物医学实验方法识别关键蛋白质成本昂贵、耗时长、识别效率以及准确性低的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的流程图;图2为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的原理图。本发明基于的蛋白质节点特性包括局部蛋白质节点复合物特性和蛋白质节点的拓扑结构特性。参见图1和图2,本发明提供的基于蛋白质节点特性的关键蛋白质识别方法具体包括:
步骤101:建立蛋白质相互作用网络。
本发明建立的蛋白质相互作用网络(protein interaction network,PPInetwork)是将蛋白质之间的相互作用网络关系转化成邻接矩阵,其中每个蛋白质可以抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,其中,n表示网络中蛋白质的数量,aij表示网络中任意两个蛋白质i和j间的关系。
也就是说,本发明将当前研究的每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,初步建立起蛋白质相互作用网络,并进一步过滤其中重复的相互作用和子相互作用关系,建立本发明所述的蛋白质相互作用网络。
步骤102:计算所述蛋白质相互作用网络中所有蛋白质的综合性能。
本发明计算所述蛋白质相互作用网络(简称网络)中每一个蛋白质节点(简称节点)的蛋白质权值作为所述蛋白质节点的综合性能。所述蛋白质权值的计算过程中,不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性,也考虑了节点及它的邻居节点在复合物中的结构特性,能有效的减少单个数据源数据噪声对预测准确性的影响,可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度和识别效率,为关键蛋白质的识别提供了一种新思路。
所述步骤102计算所述蛋白质相互作用网络中所有蛋白质的综合性能,具体包括:
S21:计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性。
根据建立的蛋白质相互作用网络,计算每一个蛋白质节点的介数中心性((betweenness centrality,BC):
其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合。节点s、v、t为PPI网络中三个不同的蛋白质节点。
S22:计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性。
广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到其子图H;子图H的边数记为|E(H)|,子图H的点数记为|V(H)|。
根据所述子图H的边数|E(H)|和点数|V(H)|计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性:
其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
S23:计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性。
随着高通量实验技术的应用,除了产生大量可用的蛋白质相互作用数据外,还有其他的生物信息数据,如亚细胞定位信息、密码子适应性、蛋白质长度、基因表达数据和同源信息、复合体等生物信息数据可以采用。其中蛋白质复合体是蛋白质节点的一种属性,相当于社团网络,一个节点可以归属于一个或多个复合体。本发明广度优先遍历节点属于的复合体并计算复合体内的度中心性:
其中IDC(v)表示所述蛋白质节点v的复合体度中心性;ComplexSet(v)代表复合体i的子集;IN-Degree(v)i代表节点v在复合体i中的度。
S24:根据所述蛋白质节点的复合体度中心性计算混合复合体中心性.
广度优先遍历所述蛋白质相互作用网络中每一个蛋白质节点v的邻居节点u,得到蛋白质节点v的邻居节点集合Nv;邻居节点u的节点个数为|Nv|。
根据所述公式(3)计算复合体度得出每个蛋白质节点IDC(Internal DegreeCentrality,内部度中心性)的数组值,找到每一个节点v的邻居节点u对应的IDC,从而根据蛋白质节点u的复合体度中心性IDC(u)以及所述蛋白质节点v的邻居节点集合Nv计算所述蛋白质节点的CAC(Complex Average Central definition,复合体平均中心性):
其中CAC(v)表示蛋白质节点v的复合体平均中心性,即蛋白质节点v在所有复合体中的平均中心性;IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性;|Nv|为所述蛋白质节点v的邻居节点集合Nv中邻居节点的节点个数。节点u为蛋白质节点v的邻居节点。
通过函数查找节点所在复合体,每一个节点在复合体中出现的次数记为Ncomplex,根据公式(5)计算出混合复合体中心性:
CHC(v)=Ncomplex(v)·CAC(v)·IDC2(v)(5)
其中CHC(v)为所述蛋白质节点v的混合复合体中心性;Ncomplex(v)表示蛋白质节点v在复合体中出现的次数;CAC(v)表示蛋白质节点v在所有复合体中的平均中心性;IDC(v)为所述蛋白质节点v的复合体度中心性。
S25:根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
结合CHC(v),Den2(v)和BC(v),并引用log函数使数据归一化,计算出最后的蛋白质权值CIBD(v):
CIBD(v)=a*log2(CHC(v))+b*log2(Den2(v))+c*log2(BC(v)) (6)
其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值,即所述蛋白质节点v的综合性能;BC(v)表示所述蛋白质节点v的介数中心性;Den2(v)表示所述蛋白质节点v的局部特性;CHC(v)表示所述蛋白质节点v的混合复合体中心性;a、b、c分别表示从1到10范围间的三个随机参数。
步骤103:对所有蛋白质按所述综合性能进行排序并输出排序结果。
对所有蛋白质节点按综合性能排序并输出排序结果,具体为:根据采用复合体内部度和介数中心性(CIBD)算法得到的权值CIBD(v),按降序的方式对节点v进行排序,并输出排序结果。算法权值CIBD(v)越高的越可能为关键蛋白质。
步骤104:采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
采用排序筛选方法对所述排序结果进行评估,识别出各个蛋白质节点v中的关键蛋白质。
图3(a)-(f)为采用本发明CIBD(complex in-degree and betweennessdefinition)方法与6种中心性测度方法,包括DC(degree centrality,度中心性)、BC(betweenness centrality,介数中心性)、LAC(local average centrality,局部平均中心性)、SC(subgraph centrality,子图中心性)、LBCC和EC(eigenvector centrality,特征向量中心性)方法得到的关键蛋白质预测结果的准确度比较图,图3各图横坐标为关键蛋白质预测方法类型,纵坐标为预测得到的关键蛋白质数量(The number of essentialproteins)。其中图3(a)预测100个关键蛋白质;图3b)预测200个关键蛋白质;图3(c)预测300个关键蛋白质;图3(d)预测400个关键蛋白质;图3(e)预测500个关键蛋白质;图3(f)预测600个关键蛋白质。从图3(a)-(f)中可以看出,采用本发明方法可以预测出大量的关键蛋白质,与LBCC方法的预测结果相近,提高了关键蛋白的识别准确度和识别效率。
可见本发明公开的一种基于节点复合物特性和拓扑结构的关键蛋白质识别方法,与现有技术相比,本发明不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性,也考虑了节点及它的邻居节点在复合物中的结构特性,能有效的减少单个数据源数据噪声对预测准确性的影响,可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度,并且可以一次预测出大量的关键蛋白质,提高了关键蛋白的识别效率,解决了生物实验方法成本昂贵且耗时长的问题,为关键蛋白质的识别提供了一种新思路。
基于本发明提供的一种基于蛋白质节点特性的关键蛋白质识别方法,本发明还提供一种基于蛋白质节点特性的关键蛋白质识别系统,所述关键蛋白质识别系统包括:
蛋白质相互作用网络建立模块,用于建立蛋白质相互作用网络;
综合性能计算模块,用于计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
综合性能排序模块,用于对所有蛋白质按所述综合性能进行排序并输出排序结果;
关键蛋白质识别模块,用于采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
其中,所述蛋白质相互作用网络建立模块具体包括:
蛋白质相互作用网络建立单元,用于将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示网络中任意两个蛋白质i和j间的关系。
所述综合性能计算模块具体包括:
介数中心性和局部特性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
复合体度中心性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
混合复合体中心性计算单元,用于根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
综合性能计算单元,用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
所述介数中心性和局部特性计算单元具体包括:
介数中心性计算子单元,用于采用公式计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
子图生成子单元,用于广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
局部特性计算子单元,用于根据所述子图的边数和点数,采用公式计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性;其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
所述混合复合体中心性计算单元具体包括:
邻居节点遍历子单元,用于广度优先遍历所述蛋白质相互作用网络中蛋白质节点v的邻居节点u,生成蛋白质节点v的邻居节点集合Nv;
复合体平均中心性计算子单元,用于根据所述蛋白质节点u的复合体度中心性以及所述蛋白质节点v的邻居节点集合Nv,采用公式计算所述蛋白质节点的复合体平均中心性;其中CAC(v)表示蛋白质节点v的复合体平均中心性;IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性;|Nv|为所述蛋白质节点v的邻居节点集合Nv中邻居节点的节点个数;
混合复合体中心性计算子单元,用于根据所述蛋白质节点v的复合体度中心性IDC(v)以及所述蛋白质节点v的复合体平均中心性CAC(v),采用公式CHC(v)=Ncomplex(v)·CAC(v)·IDC2(v)计算所述蛋白质节点v的混合复合体中心性CHC(v);其中Ncomplex(v)表示蛋白质节点v在复合体中出现的次数。
所述综合性能计算单元具体包括:
综合性能计算子单元,用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性,采用公式CIBD(v)=a*log2(CHC(v))+b*log2(Den2(v))+c*log2(BC(v))计算所述蛋白质相互作用网络中每一个蛋白质节点的蛋白质权值作为所述蛋白质节点的综合性能;其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值;BC(v)表示所述蛋白质节点v的介数中心性;Den2(v)表示所述蛋白质节点v的局部特性;CHC(v)表示所述蛋白质节点v的混合复合体中心性;a、b、c分别表示从1到10范围间的三个随机参数。
基于蛋白质相互作用网络上进行关键蛋白质识别,识别水平依赖于蛋白质相互作用网络。不同蛋白质相互作用网络对关键蛋白质识别的质量有较大影响,同一物种不同数据库中蛋白质相互作用网络不尽相同,因此所识别关键蛋白质不尽相同。因此,有必要设计一种全新的关键蛋白质识别方法。
由于关键蛋白质对有机体生命活动的重要性,本发明在考虑蛋白质相互作用网络的拓扑特性的基础上,提出了一种基于局部蛋白复合物和拓扑性质的关键蛋白质识别方法及系统。本发明的有益效果在于,与现有技术相比,不仅考虑了单个节点在整个网络拓扑特性,同时考虑了它的邻居节点对节点本身的影响,并结合复合物信息,考虑了节点和邻居节点在复合物中的重要性,减少了单一因素对蛋白质重要性的影响,为关键蛋白质的识别提供了一种新思路,提高了关键蛋白质识别的准确性和识别效率,降低了成本。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于蛋白质节点特性的关键蛋白质识别方法,其特征在于,所述关键蛋白质识别方法包括:
建立蛋白质相互作用网络;
计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
对所有蛋白质按所述综合性能进行排序并输出排序结果;
采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
2.根据权利要求1所述的关键蛋白质识别方法,其特征在于,所述建立蛋白质相互作用网络,具体包括:
将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。
3.根据权利要求2所述的关键蛋白质识别方法,其特征在于,所述计算所述蛋白质相互作用网络中所有蛋白质的综合性能,具体包括:
计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
4.根据权利要求3所述的关键蛋白质识别方法,其特征在于,所述计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性,具体包括:
采用公式计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
5.根据权利要求4所述的关键蛋白质识别方法,其特征在于,所述根据所述蛋白质节点的复合体度中心性计算混合复合体中心性,具体包括:
广度优先遍历所述蛋白质相互作用网络中蛋白质节点v的邻居节点u,生成蛋白质节点v的邻居节点集合Nv;
根据所述蛋白质节点u的复合体度中心性以及所述蛋白质节点v的邻居节点集合Nv,采用公式计算所述蛋白质节点的复合体平均中心性;其中CAC(v)表示蛋白质节点v的复合体平均中心性;IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性;|Nv|为所述蛋白质节点v的邻居节点集合Nv中邻居节点的节点个数;
根据所述蛋白质节点v的复合体度中心性IDC(v)以及所述蛋白质节点v的复合体平均中心性CAC(v),采用公式CHC(v)=Ncomplex(v)·CAC(v)·IDC2(v)计算所述蛋白质节点v的混合复合体中心性CHC(v);其中Ncomplex(v)表示蛋白质节点v在复合体中出现的次数。
6.根据权利要求5所述的关键蛋白质识别方法,其特征在于,所述根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能,具体包括:
根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性,采用公式CIBD(v)=a*log2(CHC(v))+b*log2(Den2(v))+c*log2(BC(v))计算所述蛋白质相互作用网络中每一个蛋白质节点的蛋白质权值作为所述蛋白质节点的综合性能;其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值;BC(v)表示所述蛋白质节点v的介数中心性;Den2(v)表示所述蛋白质节点v的局部特性;CHC(v)表示所述蛋白质节点v的混合复合体中心性;a、b、c分别表示从1到10范围间的三个随机参数。
7.一种基于蛋白质节点特性的关键蛋白质识别系统,其特征在于,所述关键蛋白质识别系统包括:
蛋白质相互作用网络建立模块,用于建立蛋白质相互作用网络;
综合性能计算模块,用于计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
综合性能排序模块,用于对所有蛋白质按所述综合性能进行排序并输出排序结果;
关键蛋白质识别模块,用于采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
8.根据权利要求7所述的关键蛋白质识别系统,其特征在于,所述蛋白质相互作用网络建立模块具体包括:
蛋白质相互作用网络建立单元,用于将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。
9.根据权利要求8所述的关键蛋白质识别系统,其特征在于,所述综合性能计算模块具体包括:
介数中心性和局部特性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
复合体度中心性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
混合复合体中心性计算单元,用于根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
综合性能计算单元,用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
10.根据权利要求9所述的关键蛋白质识别系统,其特征在于,所述介数中心性和局部特性计算单元具体包括:
介数中心性计算子单元,用于采用公式计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
子图生成子单元,用于广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010090420.9A CN111312330A (zh) | 2020-02-13 | 2020-02-13 | 一种基于蛋白质节点特性的关键蛋白质识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010090420.9A CN111312330A (zh) | 2020-02-13 | 2020-02-13 | 一种基于蛋白质节点特性的关键蛋白质识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111312330A true CN111312330A (zh) | 2020-06-19 |
Family
ID=71148429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010090420.9A Pending CN111312330A (zh) | 2020-02-13 | 2020-02-13 | 一种基于蛋白质节点特性的关键蛋白质识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111312330A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050260663A1 (en) * | 2004-05-18 | 2005-11-24 | Neal Solomon | Functional proteomics modeling system |
WO2013067451A2 (en) * | 2011-11-04 | 2013-05-10 | Population Diagnostics Inc. | Methods and compositions for diagnosing, prognosing, and treating neurological conditions |
CN104685065A (zh) * | 2012-01-20 | 2015-06-03 | 俄亥俄州立大学 | 浸润性和预后的乳腺癌生物标志物标签 |
CN105279397A (zh) * | 2015-10-26 | 2016-01-27 | 华东交通大学 | 一种识别蛋白质相互作用网络中关键蛋白质的方法 |
CN106874708A (zh) * | 2017-01-23 | 2017-06-20 | 陕西师范大学 | 采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法 |
CN107784196A (zh) * | 2017-09-29 | 2018-03-09 | 陕西师范大学 | 基于人工鱼群优化算法识别关键蛋白质的方法 |
WO2018148501A1 (en) * | 2017-02-10 | 2018-08-16 | The Rockefeller University | Methods for cell-type specific profiling to identify drug targets |
CN108804871A (zh) * | 2017-05-02 | 2018-11-13 | 中南大学 | 基于最大邻居子网的关键蛋白质识别方法 |
CN109166604A (zh) * | 2018-08-22 | 2019-01-08 | 华东交通大学 | 一种融合多数据特征预测关键蛋白质的计算方法 |
CN109686403A (zh) * | 2018-12-26 | 2019-04-26 | 扬州大学 | 基于不确定蛋白质相互作用网络中关键蛋白质识别方法 |
CN109801674A (zh) * | 2019-01-30 | 2019-05-24 | 长沙学院 | 一种基于异构生物网络融合的关键蛋白质识别方法 |
-
2020
- 2020-02-13 CN CN202010090420.9A patent/CN111312330A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050260663A1 (en) * | 2004-05-18 | 2005-11-24 | Neal Solomon | Functional proteomics modeling system |
WO2013067451A2 (en) * | 2011-11-04 | 2013-05-10 | Population Diagnostics Inc. | Methods and compositions for diagnosing, prognosing, and treating neurological conditions |
CN104685065A (zh) * | 2012-01-20 | 2015-06-03 | 俄亥俄州立大学 | 浸润性和预后的乳腺癌生物标志物标签 |
CN105279397A (zh) * | 2015-10-26 | 2016-01-27 | 华东交通大学 | 一种识别蛋白质相互作用网络中关键蛋白质的方法 |
CN106874708A (zh) * | 2017-01-23 | 2017-06-20 | 陕西师范大学 | 采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法 |
WO2018148501A1 (en) * | 2017-02-10 | 2018-08-16 | The Rockefeller University | Methods for cell-type specific profiling to identify drug targets |
CN108804871A (zh) * | 2017-05-02 | 2018-11-13 | 中南大学 | 基于最大邻居子网的关键蛋白质识别方法 |
CN107784196A (zh) * | 2017-09-29 | 2018-03-09 | 陕西师范大学 | 基于人工鱼群优化算法识别关键蛋白质的方法 |
CN109166604A (zh) * | 2018-08-22 | 2019-01-08 | 华东交通大学 | 一种融合多数据特征预测关键蛋白质的计算方法 |
CN109686403A (zh) * | 2018-12-26 | 2019-04-26 | 扬州大学 | 基于不确定蛋白质相互作用网络中关键蛋白质识别方法 |
CN109801674A (zh) * | 2019-01-30 | 2019-05-24 | 长沙学院 | 一种基于异构生物网络融合的关键蛋白质识别方法 |
Non-Patent Citations (3)
Title |
---|
LU, PENGLI,YU, JINGJUAN: "Two New Methods for Identifying Essential Proteins Based on the Protein Complexes and Topological Properties", 《IEEE ACCESS》 * |
许睿等: "基于节点关联性的关键蛋白质识别算法研究", 《河南科技学院学报(自然科学版)》 * |
龙民慧等: "IL-22对ApoE基因敲除小鼠脂肪肝抑制作用的研究", 《军事医学科学院院刊》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pei et al. | WGCNA application to proteomic and metabolomic data analysis | |
Wang et al. | Identification of essential proteins based on edge clustering coefficient | |
CN108319812B (zh) | 一种基于布谷鸟搜索算法识别关键蛋白质的方法 | |
Kenley et al. | Detecting protein complexes and functional modules from protein interaction networks: A graph entropy approach | |
CN107885971B (zh) | 采用改进花授粉算法识别关键蛋白质的方法 | |
CN109727637B (zh) | 基于混合蛙跳算法识别关键蛋白质的方法 | |
Zaki et al. | ProRank: a method for detecting protein complexes | |
Cui et al. | LncRNA-disease associations prediction using bipartite local model with nearest profile-based association inferring | |
Lei et al. | Topology potential based seed-growth method to identify protein complexes on dynamic PPI data | |
Gibson et al. | Questioning the ubiquity of neofunctionalization | |
CN108804871B (zh) | 基于最大邻居子网的关键蛋白质识别方法 | |
Yuen et al. | Better link prediction for protein-protein interaction networks | |
Liu et al. | The impact of protein interaction networks’ characteristics on computational complex detection methods | |
Liu et al. | A Network Hierarchy-Based method for functional module detection in protein–protein interaction networks | |
Zhou et al. | Inferring functional linkages between proteins from evolutionary scenarios | |
Baumbach et al. | Efficient algorithms for extracting biological key pathways with global constraints | |
Zhang et al. | Identify potential circRNA-disease associations through a multi-objective evolutionary algorithm | |
Zhang et al. | Bioinformatics tools for RNA-seq gene and isoform quantification | |
Yosef et al. | A complex-centric view of protein network evolution | |
CN111312330A (zh) | 一种基于蛋白质节点特性的关键蛋白质识别方法及系统 | |
Liu et al. | Identification of essential proteins based on edge features and the fusion of multiple-source biological information | |
CN109616153A (zh) | 一种采用改进的hits算法识别关键蛋白质的方法 | |
Wu et al. | Uncovering in vivo biochemical patterns from time-series metabolic dynamics | |
CN110910952B (zh) | 一种利用化学反应策略预测基本蛋白质方法 | |
Ou et al. | Analysis on differential gene expression data for prediction of new biological features in permanent atrial fibrillation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200619 |