CN111312330A - 一种基于蛋白质节点特性的关键蛋白质识别方法及系统 - Google Patents

一种基于蛋白质节点特性的关键蛋白质识别方法及系统 Download PDF

Info

Publication number
CN111312330A
CN111312330A CN202010090420.9A CN202010090420A CN111312330A CN 111312330 A CN111312330 A CN 111312330A CN 202010090420 A CN202010090420 A CN 202010090420A CN 111312330 A CN111312330 A CN 111312330A
Authority
CN
China
Prior art keywords
protein
node
centrality
interaction network
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010090420.9A
Other languages
English (en)
Inventor
卢鹏丽
蔚京娟
董晨
陈玮
栾睿
张芝铷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou University of Technology
Original Assignee
Lanzhou University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou University of Technology filed Critical Lanzhou University of Technology
Priority to CN202010090420.9A priority Critical patent/CN111312330A/zh
Publication of CN111312330A publication Critical patent/CN111312330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于蛋白质节点特性的关键蛋白质识别方法及系统。所述方法首先建立蛋白质相互作用网络并计算网络中所有蛋白质的综合性能;对所有蛋白质按综合性能进行排序并输出排序结果;采用排序筛选方法对排序结果进行评估,识别出关键蛋白质。与现有技术相比,本发明方法不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性,也考虑了节点及它的邻居节点在复合物中的结构特性,能有效地减少单个数据源数据噪声对预测准确性的影响,可以显著提高蛋白质相互作用网络中关键蛋白质的识别准确度,并且可以预测出大量的关键蛋白质,显著提高关键蛋白质的识别效率,解决了生物实验方法成本昂贵且耗时长的问题。

Description

一种基于蛋白质节点特性的关键蛋白质识别方法及系统
技术领域
本发明涉及系统生物信息学技术领域,特别是涉及一种基于蛋白质节点特性的关键蛋白质识别方法及系统。
背景技术
蛋白质是构成一切细胞和组织结构必不可少的成分,是生命活动最重要的物质基础。细胞中并不是每个蛋白质都具有同等重要性,而是不同的蛋白质对生命活动的重要性不尽相同。通常那些被剔除后造成有关生物功能丧失,并导致生物体无法生存或致病的蛋白质被称为关键蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息,特别是在疾病诊疗、药物标靶设计、确定合成生物学上最小限度基因组(即包括一个物种全部关键基因)方面有重要的应用前景。
通过生物医学实验方法可以识别出生物体内的关键蛋白质,如单基因敲除、RNA(RibonucleicAcid,核糖核酸)干扰和条件性剔除。然而这些传统的方法容易受到实验环境限制、实验周期长、成本高以及适用物种种类有限等条件限制因素的影响,甚至实验方法本身所存在的缺陷使其并不能大规模的应用。随着现代计算机技术的迅猛发展,根据对现有的实验数据中关键蛋白质所呈现出的特性进行分析,采用生物信息学的计算方法预测关键蛋白质逐渐成为研究热点。
已有的研究成果显示,一个蛋白质是否是关键蛋白质取决于这个蛋白质在生物分子网络中所对应节点的拓扑特性和生物功能特性。近些年来,出现了大量的网络中心性预测方法,典型的基于网络拓扑结构的有:度中心性(degree centrality,DC),介数中心性(betweenness centrality,BC),边聚类系数中心性(edge clustering coefficientcentrality,ECC),子图中心性(subgraph centrality,SC)和特征向量中心性(eigenvector centrality,EC)等。由于现有实验技术的限制等问题导致目前获得的相互作用数据并不丰富完善,使得现有的基于蛋白质网络的中心性预测方法并不能高效的预测关键蛋白质。
发明内容
本发明的目的是提供一种基于蛋白质节点特性的关键蛋白质识别方法及系统,以解决采用现有的生物医学实验方法识别关键蛋白质成本昂贵、耗时长、识别效率以及准确性低的问题。
为实现上述目的,本发明提供了如下方案:
一种基于蛋白质节点特性的关键蛋白质识别方法,所述关键蛋白质识别方法包括:
建立蛋白质相互作用网络;
计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
对所有蛋白质按所述综合性能进行排序并输出排序结果;
采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
可选的,所述建立蛋白质相互作用网络,具体包括:
将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。
可选的,所述计算所述蛋白质相互作用网络中所有蛋白质的综合性能,具体包括:
计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
可选的,所述计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性,具体包括:
采用公式
Figure BDA0002383519690000021
计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
根据所述子图的边数和点数,采用公式
Figure BDA0002383519690000031
计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性;其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
可选的,所述根据所述蛋白质节点的复合体度中心性计算混合复合体中心性,具体包括:
广度优先遍历所述蛋白质相互作用网络中蛋白质节点v的邻居节点u,生成蛋白质节点v的邻居节点集合Nv
根据所述蛋白质节点u的复合体度中心性以及所述蛋白质节点v的邻居节点集合Nv,采用公式
Figure BDA0002383519690000032
计算所述蛋白质节点的复合体平均中心性;其中CAC(v)表示蛋白质节点v的复合体平均中心性;IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性;|Nv|为所述蛋白质节点v的邻居节点集合Nv中邻居节点的节点个数;
根据所述蛋白质节点v的复合体度中心性IDC(v)以及所述蛋白质节点v的复合体平均中心性CAC(v),采用公式CHC(v)=Ncomplex(v)·CAC(v)·IDC2(v)计算所述蛋白质节点v的混合复合体中心性CHC(v);其中Ncomplex(v)表示蛋白质节点v在复合体中出现的次数。
可选的,所述根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能,具体包括:
根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性,采用公式CIBD(v)=a*log2(CHC(v))+b*log2(Den2(v))+c*log2(BC(v))计算所述蛋白质相互作用网络中每一个蛋白质节点的蛋白质权值作为所述蛋白质节点的综合性能;其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值;BC(v)表示所述蛋白质节点v的介数中心性;Den2(v)表示所述蛋白质节点v的局部特性;CHC(v)表示所述蛋白质节点v的混合复合体中心性;a、b、c分别表示从1到10范围间的三个随机参数。
一种基于蛋白质节点特性的关键蛋白质识别系统,所述关键蛋白质识别系统包括:
蛋白质相互作用网络建立模块,用于建立蛋白质相互作用网络;
综合性能计算模块,用于计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
综合性能排序模块,用于对所有蛋白质按所述综合性能进行排序并输出排序结果;
关键蛋白质识别模块,用于采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
可选的,所述蛋白质相互作用网络建立模块具体包括:
蛋白质相互作用网络建立单元,用于将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。
可选的,所述综合性能计算模块具体包括:
介数中心性和局部特性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
复合体度中心性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
混合复合体中心性计算单元,用于根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
综合性能计算单元,用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
可选的,所述介数中心性和局部特性计算单元具体包括:
介数中心性计算子单元,用于采用公式
Figure BDA0002383519690000051
计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
子图生成子单元,用于广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
局部特性计算子单元,用于根据所述子图的边数和点数,采用公式
Figure BDA0002383519690000052
计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性;其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种基于蛋白质节点特性的关键蛋白质识别方法及系统,所述方法首先建立蛋白质相互作用网络并计算所述蛋白质相互作用网络中所有蛋白质的综合性能;对所有蛋白质按所述综合性能进行排序并输出排序结果;采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。与现有技术相比,本发明方法不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性,也考虑了节点及它的邻居节点在复合物中的结构特性,能有效的减少单个数据源数据噪声对预测准确性的影响,可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度,并且可以一次预测出大量的关键蛋白质,显著提高关键蛋白的识别效率,解决了生物实验方法成本昂贵且耗时长的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的流程图;
图2为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的原理图;
图3为采用本发明方法与6种中心性测度DC、BC、LAC、SC、LBCC、EC方法得到的关键蛋白质预测结果的准确度比较图;其中图3(a)为采用本发明方法与6种中心性测度方法预测100个关键蛋白质的预测结果准确度比较图;图3(b)为采用本发明方法与6种中心性测度方法预测200个关键蛋白质的预测结果准确度比较图;图3(c)为采用本发明方法与6种中心性测度方法预测300个关键蛋白质的预测结果准确度比较图;图3(d)为采用本发明方法与6种中心性测度方法预测400个关键蛋白质的预测结果准确度比较图;图3(e)为采用本发明方法与6种中心性测度方法预测500个关键蛋白质的预测结果准确度比较图;图3(f)为采用本发明方法与6种中心性测度方法预测600个关键蛋白质的预测结果准确度比较图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于蛋白质节点特性的关键蛋白质识别方法及系统,以解决采用现有的生物医学实验方法识别关键蛋白质成本昂贵、耗时长、识别效率以及准确性低的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的流程图;图2为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的原理图。本发明基于的蛋白质节点特性包括局部蛋白质节点复合物特性和蛋白质节点的拓扑结构特性。参见图1和图2,本发明提供的基于蛋白质节点特性的关键蛋白质识别方法具体包括:
步骤101:建立蛋白质相互作用网络。
本发明建立的蛋白质相互作用网络(protein interaction network,PPInetwork)是将蛋白质之间的相互作用网络关系转化成邻接矩阵,其中每个蛋白质可以抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,其中,n表示网络中蛋白质的数量,aij表示网络中任意两个蛋白质i和j间的关系。
也就是说,本发明将当前研究的每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,初步建立起蛋白质相互作用网络,并进一步过滤其中重复的相互作用和子相互作用关系,建立本发明所述的蛋白质相互作用网络。
步骤102:计算所述蛋白质相互作用网络中所有蛋白质的综合性能。
本发明计算所述蛋白质相互作用网络(简称网络)中每一个蛋白质节点(简称节点)的蛋白质权值作为所述蛋白质节点的综合性能。所述蛋白质权值的计算过程中,不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性,也考虑了节点及它的邻居节点在复合物中的结构特性,能有效的减少单个数据源数据噪声对预测准确性的影响,可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度和识别效率,为关键蛋白质的识别提供了一种新思路。
所述步骤102计算所述蛋白质相互作用网络中所有蛋白质的综合性能,具体包括:
S21:计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性。
根据建立的蛋白质相互作用网络,计算每一个蛋白质节点的介数中心性((betweenness centrality,BC):
Figure BDA0002383519690000071
其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合。节点s、v、t为PPI网络中三个不同的蛋白质节点。
S22:计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性。
广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到其子图H;子图H的边数记为|E(H)|,子图H的点数记为|V(H)|。
根据所述子图H的边数|E(H)|和点数|V(H)|计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性:
Figure BDA0002383519690000081
其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
S23:计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性。
随着高通量实验技术的应用,除了产生大量可用的蛋白质相互作用数据外,还有其他的生物信息数据,如亚细胞定位信息、密码子适应性、蛋白质长度、基因表达数据和同源信息、复合体等生物信息数据可以采用。其中蛋白质复合体是蛋白质节点的一种属性,相当于社团网络,一个节点可以归属于一个或多个复合体。本发明广度优先遍历节点属于的复合体并计算复合体内的度中心性:
Figure BDA0002383519690000082
其中IDC(v)表示所述蛋白质节点v的复合体度中心性;ComplexSet(v)代表复合体i的子集;IN-Degree(v)i代表节点v在复合体i中的度。
S24:根据所述蛋白质节点的复合体度中心性计算混合复合体中心性.
广度优先遍历所述蛋白质相互作用网络中每一个蛋白质节点v的邻居节点u,得到蛋白质节点v的邻居节点集合Nv;邻居节点u的节点个数为|Nv|。
根据所述公式(3)计算复合体度得出每个蛋白质节点IDC(Internal DegreeCentrality,内部度中心性)的数组值,找到每一个节点v的邻居节点u对应的IDC,从而根据蛋白质节点u的复合体度中心性IDC(u)以及所述蛋白质节点v的邻居节点集合Nv计算所述蛋白质节点的CAC(Complex Average Central definition,复合体平均中心性):
Figure BDA0002383519690000091
其中CAC(v)表示蛋白质节点v的复合体平均中心性,即蛋白质节点v在所有复合体中的平均中心性;IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性;|Nv|为所述蛋白质节点v的邻居节点集合Nv中邻居节点的节点个数。节点u为蛋白质节点v的邻居节点。
通过函数查找节点所在复合体,每一个节点在复合体中出现的次数记为Ncomplex,根据公式(5)计算出混合复合体中心性:
CHC(v)=Ncomplex(v)·CAC(v)·IDC2(v)(5)
其中CHC(v)为所述蛋白质节点v的混合复合体中心性;Ncomplex(v)表示蛋白质节点v在复合体中出现的次数;CAC(v)表示蛋白质节点v在所有复合体中的平均中心性;IDC(v)为所述蛋白质节点v的复合体度中心性。
S25:根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
结合CHC(v),Den2(v)和BC(v),并引用log函数使数据归一化,计算出最后的蛋白质权值CIBD(v):
CIBD(v)=a*log2(CHC(v))+b*log2(Den2(v))+c*log2(BC(v)) (6)
其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值,即所述蛋白质节点v的综合性能;BC(v)表示所述蛋白质节点v的介数中心性;Den2(v)表示所述蛋白质节点v的局部特性;CHC(v)表示所述蛋白质节点v的混合复合体中心性;a、b、c分别表示从1到10范围间的三个随机参数。
步骤103:对所有蛋白质按所述综合性能进行排序并输出排序结果。
对所有蛋白质节点按综合性能排序并输出排序结果,具体为:根据采用复合体内部度和介数中心性(CIBD)算法得到的权值CIBD(v),按降序的方式对节点v进行排序,并输出排序结果。算法权值CIBD(v)越高的越可能为关键蛋白质。
步骤104:采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
采用排序筛选方法对所述排序结果进行评估,识别出各个蛋白质节点v中的关键蛋白质。
图3(a)-(f)为采用本发明CIBD(complex in-degree and betweennessdefinition)方法与6种中心性测度方法,包括DC(degree centrality,度中心性)、BC(betweenness centrality,介数中心性)、LAC(local average centrality,局部平均中心性)、SC(subgraph centrality,子图中心性)、LBCC和EC(eigenvector centrality,特征向量中心性)方法得到的关键蛋白质预测结果的准确度比较图,图3各图横坐标为关键蛋白质预测方法类型,纵坐标为预测得到的关键蛋白质数量(The number of essentialproteins)。其中图3(a)预测100个关键蛋白质;图3b)预测200个关键蛋白质;图3(c)预测300个关键蛋白质;图3(d)预测400个关键蛋白质;图3(e)预测500个关键蛋白质;图3(f)预测600个关键蛋白质。从图3(a)-(f)中可以看出,采用本发明方法可以预测出大量的关键蛋白质,与LBCC方法的预测结果相近,提高了关键蛋白的识别准确度和识别效率。
可见本发明公开的一种基于节点复合物特性和拓扑结构的关键蛋白质识别方法,与现有技术相比,本发明不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性,也考虑了节点及它的邻居节点在复合物中的结构特性,能有效的减少单个数据源数据噪声对预测准确性的影响,可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度,并且可以一次预测出大量的关键蛋白质,提高了关键蛋白的识别效率,解决了生物实验方法成本昂贵且耗时长的问题,为关键蛋白质的识别提供了一种新思路。
基于本发明提供的一种基于蛋白质节点特性的关键蛋白质识别方法,本发明还提供一种基于蛋白质节点特性的关键蛋白质识别系统,所述关键蛋白质识别系统包括:
蛋白质相互作用网络建立模块,用于建立蛋白质相互作用网络;
综合性能计算模块,用于计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
综合性能排序模块,用于对所有蛋白质按所述综合性能进行排序并输出排序结果;
关键蛋白质识别模块,用于采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
其中,所述蛋白质相互作用网络建立模块具体包括:
蛋白质相互作用网络建立单元,用于将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示网络中任意两个蛋白质i和j间的关系。
所述综合性能计算模块具体包括:
介数中心性和局部特性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
复合体度中心性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
混合复合体中心性计算单元,用于根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
综合性能计算单元,用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
所述介数中心性和局部特性计算单元具体包括:
介数中心性计算子单元,用于采用公式
Figure BDA0002383519690000111
计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
子图生成子单元,用于广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
局部特性计算子单元,用于根据所述子图的边数和点数,采用公式
Figure BDA0002383519690000121
计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性;其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
所述混合复合体中心性计算单元具体包括:
邻居节点遍历子单元,用于广度优先遍历所述蛋白质相互作用网络中蛋白质节点v的邻居节点u,生成蛋白质节点v的邻居节点集合Nv
复合体平均中心性计算子单元,用于根据所述蛋白质节点u的复合体度中心性以及所述蛋白质节点v的邻居节点集合Nv,采用公式
Figure BDA0002383519690000122
计算所述蛋白质节点的复合体平均中心性;其中CAC(v)表示蛋白质节点v的复合体平均中心性;IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性;|Nv|为所述蛋白质节点v的邻居节点集合Nv中邻居节点的节点个数;
混合复合体中心性计算子单元,用于根据所述蛋白质节点v的复合体度中心性IDC(v)以及所述蛋白质节点v的复合体平均中心性CAC(v),采用公式CHC(v)=Ncomplex(v)·CAC(v)·IDC2(v)计算所述蛋白质节点v的混合复合体中心性CHC(v);其中Ncomplex(v)表示蛋白质节点v在复合体中出现的次数。
所述综合性能计算单元具体包括:
综合性能计算子单元,用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性,采用公式CIBD(v)=a*log2(CHC(v))+b*log2(Den2(v))+c*log2(BC(v))计算所述蛋白质相互作用网络中每一个蛋白质节点的蛋白质权值作为所述蛋白质节点的综合性能;其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值;BC(v)表示所述蛋白质节点v的介数中心性;Den2(v)表示所述蛋白质节点v的局部特性;CHC(v)表示所述蛋白质节点v的混合复合体中心性;a、b、c分别表示从1到10范围间的三个随机参数。
基于蛋白质相互作用网络上进行关键蛋白质识别,识别水平依赖于蛋白质相互作用网络。不同蛋白质相互作用网络对关键蛋白质识别的质量有较大影响,同一物种不同数据库中蛋白质相互作用网络不尽相同,因此所识别关键蛋白质不尽相同。因此,有必要设计一种全新的关键蛋白质识别方法。
由于关键蛋白质对有机体生命活动的重要性,本发明在考虑蛋白质相互作用网络的拓扑特性的基础上,提出了一种基于局部蛋白复合物和拓扑性质的关键蛋白质识别方法及系统。本发明的有益效果在于,与现有技术相比,不仅考虑了单个节点在整个网络拓扑特性,同时考虑了它的邻居节点对节点本身的影响,并结合复合物信息,考虑了节点和邻居节点在复合物中的重要性,减少了单一因素对蛋白质重要性的影响,为关键蛋白质的识别提供了一种新思路,提高了关键蛋白质识别的准确性和识别效率,降低了成本。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于蛋白质节点特性的关键蛋白质识别方法,其特征在于,所述关键蛋白质识别方法包括:
建立蛋白质相互作用网络;
计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
对所有蛋白质按所述综合性能进行排序并输出排序结果;
采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
2.根据权利要求1所述的关键蛋白质识别方法,其特征在于,所述建立蛋白质相互作用网络,具体包括:
将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。
3.根据权利要求2所述的关键蛋白质识别方法,其特征在于,所述计算所述蛋白质相互作用网络中所有蛋白质的综合性能,具体包括:
计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
4.根据权利要求3所述的关键蛋白质识别方法,其特征在于,所述计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性,具体包括:
采用公式
Figure FDA0002383519680000011
计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
根据所述子图的边数和点数,采用公式
Figure FDA0002383519680000021
计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性;其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
5.根据权利要求4所述的关键蛋白质识别方法,其特征在于,所述根据所述蛋白质节点的复合体度中心性计算混合复合体中心性,具体包括:
广度优先遍历所述蛋白质相互作用网络中蛋白质节点v的邻居节点u,生成蛋白质节点v的邻居节点集合Nv
根据所述蛋白质节点u的复合体度中心性以及所述蛋白质节点v的邻居节点集合Nv,采用公式
Figure FDA0002383519680000022
计算所述蛋白质节点的复合体平均中心性;其中CAC(v)表示蛋白质节点v的复合体平均中心性;IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性;|Nv|为所述蛋白质节点v的邻居节点集合Nv中邻居节点的节点个数;
根据所述蛋白质节点v的复合体度中心性IDC(v)以及所述蛋白质节点v的复合体平均中心性CAC(v),采用公式CHC(v)=Ncomplex(v)·CAC(v)·IDC2(v)计算所述蛋白质节点v的混合复合体中心性CHC(v);其中Ncomplex(v)表示蛋白质节点v在复合体中出现的次数。
6.根据权利要求5所述的关键蛋白质识别方法,其特征在于,所述根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能,具体包括:
根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性,采用公式CIBD(v)=a*log2(CHC(v))+b*log2(Den2(v))+c*log2(BC(v))计算所述蛋白质相互作用网络中每一个蛋白质节点的蛋白质权值作为所述蛋白质节点的综合性能;其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值;BC(v)表示所述蛋白质节点v的介数中心性;Den2(v)表示所述蛋白质节点v的局部特性;CHC(v)表示所述蛋白质节点v的混合复合体中心性;a、b、c分别表示从1到10范围间的三个随机参数。
7.一种基于蛋白质节点特性的关键蛋白质识别系统,其特征在于,所述关键蛋白质识别系统包括:
蛋白质相互作用网络建立模块,用于建立蛋白质相互作用网络;
综合性能计算模块,用于计算所述蛋白质相互作用网络中所有蛋白质的综合性能;
综合性能排序模块,用于对所有蛋白质按所述综合性能进行排序并输出排序结果;
关键蛋白质识别模块,用于采用排序筛选方法对所述排序结果进行评估,识别出关键蛋白质。
8.根据权利要求7所述的关键蛋白质识别系统,其特征在于,所述蛋白质相互作用网络建立模块具体包括:
蛋白质相互作用网络建立单元,用于将每个蛋白质抽象为一个节点,蛋白质之间的联系抽象为一条边,节点及其连边关系用邻接矩阵A=(aij)|n|×|n|来表示,建立所述蛋白质相互作用网络;其中n表示所述蛋白质相互作用网络中蛋白质的数量,aij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。
9.根据权利要求8所述的关键蛋白质识别系统,其特征在于,所述综合性能计算模块具体包括:
介数中心性和局部特性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性;
复合体度中心性计算单元,用于计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性;
混合复合体中心性计算单元,用于根据所述蛋白质节点的复合体度中心性计算混合复合体中心性;
综合性能计算单元,用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。
10.根据权利要求9所述的关键蛋白质识别系统,其特征在于,所述介数中心性和局部特性计算单元具体包括:
介数中心性计算子单元,用于采用公式
Figure FDA0002383519680000041
计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性;其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性;σst表示从从蛋白质节点s到蛋白质节点t的最短路径数目;σst(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目;V表示所述蛋白质相互作用网络中所有蛋白质节点的集合;
子图生成子单元,用于广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点,得到子图;
局部特性计算子单元,用于根据所述子图的边数和点数,采用公式
Figure FDA0002383519680000042
计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性;其中Den2(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性;|E(H)|为子图的边数;|V(H)|为子图的点数。
CN202010090420.9A 2020-02-13 2020-02-13 一种基于蛋白质节点特性的关键蛋白质识别方法及系统 Pending CN111312330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010090420.9A CN111312330A (zh) 2020-02-13 2020-02-13 一种基于蛋白质节点特性的关键蛋白质识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010090420.9A CN111312330A (zh) 2020-02-13 2020-02-13 一种基于蛋白质节点特性的关键蛋白质识别方法及系统

Publications (1)

Publication Number Publication Date
CN111312330A true CN111312330A (zh) 2020-06-19

Family

ID=71148429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010090420.9A Pending CN111312330A (zh) 2020-02-13 2020-02-13 一种基于蛋白质节点特性的关键蛋白质识别方法及系统

Country Status (1)

Country Link
CN (1) CN111312330A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050260663A1 (en) * 2004-05-18 2005-11-24 Neal Solomon Functional proteomics modeling system
WO2013067451A2 (en) * 2011-11-04 2013-05-10 Population Diagnostics Inc. Methods and compositions for diagnosing, prognosing, and treating neurological conditions
CN104685065A (zh) * 2012-01-20 2015-06-03 俄亥俄州立大学 浸润性和预后的乳腺癌生物标志物标签
CN105279397A (zh) * 2015-10-26 2016-01-27 华东交通大学 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN106874708A (zh) * 2017-01-23 2017-06-20 陕西师范大学 采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法
CN107784196A (zh) * 2017-09-29 2018-03-09 陕西师范大学 基于人工鱼群优化算法识别关键蛋白质的方法
WO2018148501A1 (en) * 2017-02-10 2018-08-16 The Rockefeller University Methods for cell-type specific profiling to identify drug targets
CN108804871A (zh) * 2017-05-02 2018-11-13 中南大学 基于最大邻居子网的关键蛋白质识别方法
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109686403A (zh) * 2018-12-26 2019-04-26 扬州大学 基于不确定蛋白质相互作用网络中关键蛋白质识别方法
CN109801674A (zh) * 2019-01-30 2019-05-24 长沙学院 一种基于异构生物网络融合的关键蛋白质识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050260663A1 (en) * 2004-05-18 2005-11-24 Neal Solomon Functional proteomics modeling system
WO2013067451A2 (en) * 2011-11-04 2013-05-10 Population Diagnostics Inc. Methods and compositions for diagnosing, prognosing, and treating neurological conditions
CN104685065A (zh) * 2012-01-20 2015-06-03 俄亥俄州立大学 浸润性和预后的乳腺癌生物标志物标签
CN105279397A (zh) * 2015-10-26 2016-01-27 华东交通大学 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN106874708A (zh) * 2017-01-23 2017-06-20 陕西师范大学 采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法
WO2018148501A1 (en) * 2017-02-10 2018-08-16 The Rockefeller University Methods for cell-type specific profiling to identify drug targets
CN108804871A (zh) * 2017-05-02 2018-11-13 中南大学 基于最大邻居子网的关键蛋白质识别方法
CN107784196A (zh) * 2017-09-29 2018-03-09 陕西师范大学 基于人工鱼群优化算法识别关键蛋白质的方法
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109686403A (zh) * 2018-12-26 2019-04-26 扬州大学 基于不确定蛋白质相互作用网络中关键蛋白质识别方法
CN109801674A (zh) * 2019-01-30 2019-05-24 长沙学院 一种基于异构生物网络融合的关键蛋白质识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LU, PENGLI,YU, JINGJUAN: "Two New Methods for Identifying Essential Proteins Based on the Protein Complexes and Topological Properties", 《IEEE ACCESS》 *
许睿等: "基于节点关联性的关键蛋白质识别算法研究", 《河南科技学院学报(自然科学版)》 *
龙民慧等: "IL-22对ApoE基因敲除小鼠脂肪肝抑制作用的研究", 《军事医学科学院院刊》 *

Similar Documents

Publication Publication Date Title
Pei et al. WGCNA application to proteomic and metabolomic data analysis
Wang et al. Identification of essential proteins based on edge clustering coefficient
CN108319812B (zh) 一种基于布谷鸟搜索算法识别关键蛋白质的方法
Kenley et al. Detecting protein complexes and functional modules from protein interaction networks: A graph entropy approach
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
Zaki et al. ProRank: a method for detecting protein complexes
Cui et al. LncRNA-disease associations prediction using bipartite local model with nearest profile-based association inferring
Lei et al. Topology potential based seed-growth method to identify protein complexes on dynamic PPI data
Gibson et al. Questioning the ubiquity of neofunctionalization
CN108804871B (zh) 基于最大邻居子网的关键蛋白质识别方法
Yuen et al. Better link prediction for protein-protein interaction networks
Liu et al. The impact of protein interaction networks’ characteristics on computational complex detection methods
Liu et al. A Network Hierarchy-Based method for functional module detection in protein–protein interaction networks
Zhou et al. Inferring functional linkages between proteins from evolutionary scenarios
Baumbach et al. Efficient algorithms for extracting biological key pathways with global constraints
Zhang et al. Identify potential circRNA-disease associations through a multi-objective evolutionary algorithm
Zhang et al. Bioinformatics tools for RNA-seq gene and isoform quantification
Yosef et al. A complex-centric view of protein network evolution
CN111312330A (zh) 一种基于蛋白质节点特性的关键蛋白质识别方法及系统
Liu et al. Identification of essential proteins based on edge features and the fusion of multiple-source biological information
CN109616153A (zh) 一种采用改进的hits算法识别关键蛋白质的方法
Wu et al. Uncovering in vivo biochemical patterns from time-series metabolic dynamics
CN110910952B (zh) 一种利用化学反应策略预测基本蛋白质方法
Ou et al. Analysis on differential gene expression data for prediction of new biological features in permanent atrial fibrillation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200619