CN111312330A

CN111312330A - 一种基于蛋白质节点特性的关键蛋白质识别方法及系统

Info

Publication number: CN111312330A
Application number: CN202010090420.9A
Authority: CN
Inventors: 卢鹏丽; 蔚京娟; 董晨; 陈玮; 栾睿; 张芝铷
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-06-19

Abstract

本发明公开了一种基于蛋白质节点特性的关键蛋白质识别方法及系统。所述方法首先建立蛋白质相互作用网络并计算网络中所有蛋白质的综合性能；对所有蛋白质按综合性能进行排序并输出排序结果；采用排序筛选方法对排序结果进行评估，识别出关键蛋白质。与现有技术相比，本发明方法不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性，也考虑了节点及它的邻居节点在复合物中的结构特性，能有效地减少单个数据源数据噪声对预测准确性的影响，可以显著提高蛋白质相互作用网络中关键蛋白质的识别准确度，并且可以预测出大量的关键蛋白质，显著提高关键蛋白质的识别效率，解决了生物实验方法成本昂贵且耗时长的问题。

Description

一种基于蛋白质节点特性的关键蛋白质识别方法及系统

技术领域

本发明涉及系统生物信息学技术领域，特别是涉及一种基于蛋白质节点特性的关键蛋白质识别方法及系统。

背景技术

蛋白质是构成一切细胞和组织结构必不可少的成分，是生命活动最重要的物质基础。细胞中并不是每个蛋白质都具有同等重要性，而是不同的蛋白质对生命活动的重要性不尽相同。通常那些被剔除后造成有关生物功能丧失，并导致生物体无法生存或致病的蛋白质被称为关键蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息，特别是在疾病诊疗、药物标靶设计、确定合成生物学上最小限度基因组(即包括一个物种全部关键基因)方面有重要的应用前景。

通过生物医学实验方法可以识别出生物体内的关键蛋白质，如单基因敲除、RNA(RibonucleicAcid，核糖核酸)干扰和条件性剔除。然而这些传统的方法容易受到实验环境限制、实验周期长、成本高以及适用物种种类有限等条件限制因素的影响，甚至实验方法本身所存在的缺陷使其并不能大规模的应用。随着现代计算机技术的迅猛发展，根据对现有的实验数据中关键蛋白质所呈现出的特性进行分析，采用生物信息学的计算方法预测关键蛋白质逐渐成为研究热点。

已有的研究成果显示，一个蛋白质是否是关键蛋白质取决于这个蛋白质在生物分子网络中所对应节点的拓扑特性和生物功能特性。近些年来，出现了大量的网络中心性预测方法，典型的基于网络拓扑结构的有:度中心性(degree centrality,DC)，介数中心性(betweenness centrality,BC)，边聚类系数中心性(edge clustering coefficientcentrality,ECC)，子图中心性(subgraph centrality,SC)和特征向量中心性(eigenvector centrality,EC)等。由于现有实验技术的限制等问题导致目前获得的相互作用数据并不丰富完善，使得现有的基于蛋白质网络的中心性预测方法并不能高效的预测关键蛋白质。

发明内容

本发明的目的是提供一种基于蛋白质节点特性的关键蛋白质识别方法及系统，以解决采用现有的生物医学实验方法识别关键蛋白质成本昂贵、耗时长、识别效率以及准确性低的问题。

为实现上述目的，本发明提供了如下方案：

一种基于蛋白质节点特性的关键蛋白质识别方法，所述关键蛋白质识别方法包括：

建立蛋白质相互作用网络；

计算所述蛋白质相互作用网络中所有蛋白质的综合性能；

对所有蛋白质按所述综合性能进行排序并输出排序结果；

采用排序筛选方法对所述排序结果进行评估，识别出关键蛋白质。

可选的，所述建立蛋白质相互作用网络，具体包括：

将每个蛋白质抽象为一个节点，蛋白质之间的联系抽象为一条边，节点及其连边关系用邻接矩阵A＝(a_ij)_|n|×|n|来表示，建立所述蛋白质相互作用网络；其中n表示所述蛋白质相互作用网络中蛋白质的数量，a_ij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。

可选的，所述计算所述蛋白质相互作用网络中所有蛋白质的综合性能，具体包括：

计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性；

计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性；

根据所述蛋白质节点的复合体度中心性计算混合复合体中心性；

根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。

可选的，所述计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性，具体包括：

采用公式

计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性；其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性；σ_st表示从从蛋白质节点s到蛋白质节点t的最短路径数目；σ_st(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目；V表示所述蛋白质相互作用网络中所有蛋白质节点的集合；

广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点，得到子图；

根据所述子图的边数和点数，采用公式

计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性；其中Den₂(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性；|E(H)|为子图的边数；|V(H)|为子图的点数。

可选的，所述根据所述蛋白质节点的复合体度中心性计算混合复合体中心性，具体包括：

广度优先遍历所述蛋白质相互作用网络中蛋白质节点v的邻居节点u，生成蛋白质节点v的邻居节点集合N_v；

根据所述蛋白质节点u的复合体度中心性以及所述蛋白质节点v的邻居节点集合N_v，采用公式

计算所述蛋白质节点的复合体平均中心性；其中CAC(v)表示蛋白质节点v的复合体平均中心性；IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性；|N_v|为所述蛋白质节点v的邻居节点集合N_v中邻居节点的节点个数；

根据所述蛋白质节点v的复合体度中心性IDC(v)以及所述蛋白质节点v的复合体平均中心性CAC(v)，采用公式CHC(v)＝N_complex(v)·CAC(v)·IDC²(v)计算所述蛋白质节点v的混合复合体中心性CHC(v)；其中N_complex(v)表示蛋白质节点v在复合体中出现的次数。

可选的，所述根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能，具体包括：

根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性，采用公式CIBD(v)＝a*log₂(CHC(v))+b*log₂(Den₂(v))+c*log₂(BC(v))计算所述蛋白质相互作用网络中每一个蛋白质节点的蛋白质权值作为所述蛋白质节点的综合性能；其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值；BC(v)表示所述蛋白质节点v的介数中心性；Den₂(v)表示所述蛋白质节点v的局部特性；CHC(v)表示所述蛋白质节点v的混合复合体中心性；a、b、c分别表示从1到10范围间的三个随机参数。

一种基于蛋白质节点特性的关键蛋白质识别系统，所述关键蛋白质识别系统包括：

蛋白质相互作用网络建立模块，用于建立蛋白质相互作用网络；

综合性能计算模块，用于计算所述蛋白质相互作用网络中所有蛋白质的综合性能；

综合性能排序模块，用于对所有蛋白质按所述综合性能进行排序并输出排序结果；

关键蛋白质识别模块，用于采用排序筛选方法对所述排序结果进行评估，识别出关键蛋白质。

可选的，所述蛋白质相互作用网络建立模块具体包括：

蛋白质相互作用网络建立单元，用于将每个蛋白质抽象为一个节点，蛋白质之间的联系抽象为一条边，节点及其连边关系用邻接矩阵A＝(a_ij)_|n|×|n|来表示，建立所述蛋白质相互作用网络；其中n表示所述蛋白质相互作用网络中蛋白质的数量，a_ij表示所述蛋白质相互作用网络中任意两个蛋白质i和j间的关系。

可选的，所述综合性能计算模块具体包括：

介数中心性和局部特性计算单元，用于计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性和局部特性；

复合体度中心性计算单元，用于计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性；

混合复合体中心性计算单元，用于根据所述蛋白质节点的复合体度中心性计算混合复合体中心性；

综合性能计算单元，用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。

可选的，所述介数中心性和局部特性计算单元具体包括：

介数中心性计算子单元，用于采用公式

子图生成子单元，用于广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点，得到子图；

局部特性计算子单元，用于根据所述子图的边数和点数，采用公式

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种基于蛋白质节点特性的关键蛋白质识别方法及系统，所述方法首先建立蛋白质相互作用网络并计算所述蛋白质相互作用网络中所有蛋白质的综合性能；对所有蛋白质按所述综合性能进行排序并输出排序结果；采用排序筛选方法对所述排序结果进行评估，识别出关键蛋白质。与现有技术相比，本发明方法不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性，也考虑了节点及它的邻居节点在复合物中的结构特性，能有效的减少单个数据源数据噪声对预测准确性的影响，可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度，并且可以一次预测出大量的关键蛋白质，显著提高关键蛋白的识别效率，解决了生物实验方法成本昂贵且耗时长的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的流程图；

图2为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的原理图；

图3为采用本发明方法与6种中心性测度DC、BC、LAC、SC、LBCC、EC方法得到的关键蛋白质预测结果的准确度比较图；其中图3(a)为采用本发明方法与6种中心性测度方法预测100个关键蛋白质的预测结果准确度比较图；图3(b)为采用本发明方法与6种中心性测度方法预测200个关键蛋白质的预测结果准确度比较图；图3(c)为采用本发明方法与6种中心性测度方法预测300个关键蛋白质的预测结果准确度比较图；图3(d)为采用本发明方法与6种中心性测度方法预测400个关键蛋白质的预测结果准确度比较图；图3(e)为采用本发明方法与6种中心性测度方法预测500个关键蛋白质的预测结果准确度比较图；图3(f)为采用本发明方法与6种中心性测度方法预测600个关键蛋白质的预测结果准确度比较图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的流程图；图2为本发明提供的基于蛋白质节点特性的关键蛋白质识别方法的原理图。本发明基于的蛋白质节点特性包括局部蛋白质节点复合物特性和蛋白质节点的拓扑结构特性。参见图1和图2，本发明提供的基于蛋白质节点特性的关键蛋白质识别方法具体包括：

步骤101：建立蛋白质相互作用网络。

本发明建立的蛋白质相互作用网络(protein interaction network，PPInetwork)是将蛋白质之间的相互作用网络关系转化成邻接矩阵，其中每个蛋白质可以抽象为一个节点，蛋白质之间的联系抽象为一条边，节点及其连边关系用邻接矩阵A＝(a_ij)_|n|×|n|来表示，其中，n表示网络中蛋白质的数量，a_ij表示网络中任意两个蛋白质i和j间的关系。

也就是说，本发明将当前研究的每个蛋白质抽象为一个节点，蛋白质之间的联系抽象为一条边，节点及其连边关系用邻接矩阵A＝(a_ij)_|n|×|n|来表示，初步建立起蛋白质相互作用网络，并进一步过滤其中重复的相互作用和子相互作用关系，建立本发明所述的蛋白质相互作用网络。

步骤102：计算所述蛋白质相互作用网络中所有蛋白质的综合性能。

本发明计算所述蛋白质相互作用网络(简称网络)中每一个蛋白质节点(简称节点)的蛋白质权值作为所述蛋白质节点的综合性能。所述蛋白质权值的计算过程中，不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性，也考虑了节点及它的邻居节点在复合物中的结构特性，能有效的减少单个数据源数据噪声对预测准确性的影响，可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度和识别效率，为关键蛋白质的识别提供了一种新思路。

所述步骤102计算所述蛋白质相互作用网络中所有蛋白质的综合性能，具体包括：

S21：计算所述蛋白质相互作用网络中每一个蛋白质节点的介数中心性。

根据建立的蛋白质相互作用网络，计算每一个蛋白质节点的介数中心性((betweenness centrality,BC)：

其中BC(v)表示所述蛋白质相互作用网络中蛋白质节点v的介数中心性；σ_st表示从从蛋白质节点s到蛋白质节点t的最短路径数目；σ_st(v)表示从蛋白质节点s到蛋白质节点t经过蛋白质节点v的最短路径数目；V表示所述蛋白质相互作用网络中所有蛋白质节点的集合。节点s、v、t为PPI网络中三个不同的蛋白质节点。

S22：计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性。

广度优先遍历所述蛋白质相互作用网络中的节点、一阶邻居节点和二阶邻居节点，得到其子图H；子图H的边数记为|E(H)|，子图H的点数记为|V(H)|。

根据所述子图H的边数|E(H)|和点数|V(H)|计算所述蛋白质相互作用网络中每一个蛋白质节点的局部特性：

其中Den₂(v)表示所述蛋白质相互作用网络中蛋白质节点v的局部特性；|E(H)|为子图的边数；|V(H)|为子图的点数。

S23：计算所述蛋白质相互作用网络中每一个蛋白质节点的复合体度中心性。

随着高通量实验技术的应用，除了产生大量可用的蛋白质相互作用数据外，还有其他的生物信息数据，如亚细胞定位信息、密码子适应性、蛋白质长度、基因表达数据和同源信息、复合体等生物信息数据可以采用。其中蛋白质复合体是蛋白质节点的一种属性，相当于社团网络，一个节点可以归属于一个或多个复合体。本发明广度优先遍历节点属于的复合体并计算复合体内的度中心性：

其中IDC(v)表示所述蛋白质节点v的复合体度中心性；ComplexSet(v)代表复合体i的子集；IN-Degree(v)_i代表节点v在复合体i中的度。

S24：根据所述蛋白质节点的复合体度中心性计算混合复合体中心性.

广度优先遍历所述蛋白质相互作用网络中每一个蛋白质节点v的邻居节点u，得到蛋白质节点v的邻居节点集合N_v；邻居节点u的节点个数为|N_v|。

根据所述公式(3)计算复合体度得出每个蛋白质节点IDC(Internal DegreeCentrality，内部度中心性)的数组值，找到每一个节点v的邻居节点u对应的IDC，从而根据蛋白质节点u的复合体度中心性IDC(u)以及所述蛋白质节点v的邻居节点集合N_v计算所述蛋白质节点的CAC(Complex Average Central definition，复合体平均中心性)：

其中CAC(v)表示蛋白质节点v的复合体平均中心性，即蛋白质节点v在所有复合体中的平均中心性；IDC(u)表示所述蛋白质节点v的邻居节点u的复合体度中心性；|N_v|为所述蛋白质节点v的邻居节点集合N_v中邻居节点的节点个数。节点u为蛋白质节点v的邻居节点。

通过函数查找节点所在复合体，每一个节点在复合体中出现的次数记为N_complex，根据公式(5)计算出混合复合体中心性：

CHC(v)＝N_complex(v)·CAC(v)·IDC²(v)(5)

其中CHC(v)为所述蛋白质节点v的混合复合体中心性；N_complex(v)表示蛋白质节点v在复合体中出现的次数；CAC(v)表示蛋白质节点v在所有复合体中的平均中心性；IDC(v)为所述蛋白质节点v的复合体度中心性。

S25：根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性计算所述蛋白质相互作用网络中每一个蛋白质节点的综合性能。

结合CHC(v)，Den₂(v)和BC(v)，并引用log函数使数据归一化，计算出最后的蛋白质权值CIBD(v)：

CIBD(v)＝a*log₂(CHC(v))+b*log₂(Den₂(v))+c*log₂(BC(v)) (6)

其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值，即所述蛋白质节点v的综合性能；BC(v)表示所述蛋白质节点v的介数中心性；Den₂(v)表示所述蛋白质节点v的局部特性；CHC(v)表示所述蛋白质节点v的混合复合体中心性；a、b、c分别表示从1到10范围间的三个随机参数。

步骤103：对所有蛋白质按所述综合性能进行排序并输出排序结果。

对所有蛋白质节点按综合性能排序并输出排序结果，具体为：根据采用复合体内部度和介数中心性(CIBD)算法得到的权值CIBD(v)，按降序的方式对节点v进行排序，并输出排序结果。算法权值CIBD(v)越高的越可能为关键蛋白质。

步骤104：采用排序筛选方法对所述排序结果进行评估，识别出关键蛋白质。

采用排序筛选方法对所述排序结果进行评估，识别出各个蛋白质节点v中的关键蛋白质。

图3(a)-(f)为采用本发明CIBD(complex in-degree and betweennessdefinition)方法与6种中心性测度方法，包括DC(degree centrality，度中心性)、BC(betweenness centrality，介数中心性)、LAC(local average centrality，局部平均中心性)、SC(subgraph centrality，子图中心性)、LBCC和EC(eigenvector centrality，特征向量中心性)方法得到的关键蛋白质预测结果的准确度比较图，图3各图横坐标为关键蛋白质预测方法类型，纵坐标为预测得到的关键蛋白质数量(The number of essentialproteins)。其中图3(a)预测100个关键蛋白质；图3b)预测200个关键蛋白质；图3(c)预测300个关键蛋白质；图3(d)预测400个关键蛋白质；图3(e)预测500个关键蛋白质；图3(f)预测600个关键蛋白质。从图3(a)-(f)中可以看出，采用本发明方法可以预测出大量的关键蛋白质，与LBCC方法的预测结果相近，提高了关键蛋白的识别准确度和识别效率。

可见本发明公开的一种基于节点复合物特性和拓扑结构的关键蛋白质识别方法，与现有技术相比，本发明不仅考虑了单个节点在整个网络中的局部和全局的拓扑特性，也考虑了节点及它的邻居节点在复合物中的结构特性，能有效的减少单个数据源数据噪声对预测准确性的影响，可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度，并且可以一次预测出大量的关键蛋白质，提高了关键蛋白的识别效率，解决了生物实验方法成本昂贵且耗时长的问题，为关键蛋白质的识别提供了一种新思路。

基于本发明提供的一种基于蛋白质节点特性的关键蛋白质识别方法，本发明还提供一种基于蛋白质节点特性的关键蛋白质识别系统，所述关键蛋白质识别系统包括：

其中，所述蛋白质相互作用网络建立模块具体包括：

蛋白质相互作用网络建立单元，用于将每个蛋白质抽象为一个节点，蛋白质之间的联系抽象为一条边，节点及其连边关系用邻接矩阵A＝(a_ij)_|n|×|n|来表示，建立所述蛋白质相互作用网络；其中n表示所述蛋白质相互作用网络中蛋白质的数量，a_ij表示网络中任意两个蛋白质i和j间的关系。

所述综合性能计算模块具体包括：

所述介数中心性和局部特性计算单元具体包括：

介数中心性计算子单元，用于采用公式

所述混合复合体中心性计算单元具体包括：

邻居节点遍历子单元，用于广度优先遍历所述蛋白质相互作用网络中蛋白质节点v的邻居节点u，生成蛋白质节点v的邻居节点集合N_v；

复合体平均中心性计算子单元，用于根据所述蛋白质节点u的复合体度中心性以及所述蛋白质节点v的邻居节点集合N_v，采用公式

混合复合体中心性计算子单元，用于根据所述蛋白质节点v的复合体度中心性IDC(v)以及所述蛋白质节点v的复合体平均中心性CAC(v)，采用公式CHC(v)＝N_complex(v)·CAC(v)·IDC²(v)计算所述蛋白质节点v的混合复合体中心性CHC(v)；其中N_complex(v)表示蛋白质节点v在复合体中出现的次数。

所述综合性能计算单元具体包括：

综合性能计算子单元，用于根据所述蛋白质节点的介数中心性、所述蛋白质节点的局部特性以及所述混合复合体中心性，采用公式CIBD(v)＝a*log₂(CHC(v))+b*log₂(Den₂(v))+c*log₂(BC(v))计算所述蛋白质相互作用网络中每一个蛋白质节点的蛋白质权值作为所述蛋白质节点的综合性能；其中CIBD(v)表示所述蛋白质相互作用网络中蛋白质节点v的蛋白质权值；BC(v)表示所述蛋白质节点v的介数中心性；Den₂(v)表示所述蛋白质节点v的局部特性；CHC(v)表示所述蛋白质节点v的混合复合体中心性；a、b、c分别表示从1到10范围间的三个随机参数。

基于蛋白质相互作用网络上进行关键蛋白质识别，识别水平依赖于蛋白质相互作用网络。不同蛋白质相互作用网络对关键蛋白质识别的质量有较大影响，同一物种不同数据库中蛋白质相互作用网络不尽相同，因此所识别关键蛋白质不尽相同。因此，有必要设计一种全新的关键蛋白质识别方法。

由于关键蛋白质对有机体生命活动的重要性，本发明在考虑蛋白质相互作用网络的拓扑特性的基础上，提出了一种基于局部蛋白复合物和拓扑性质的关键蛋白质识别方法及系统。本发明的有益效果在于，与现有技术相比，不仅考虑了单个节点在整个网络拓扑特性，同时考虑了它的邻居节点对节点本身的影响，并结合复合物信息，考虑了节点和邻居节点在复合物中的重要性，减少了单一因素对蛋白质重要性的影响，为关键蛋白质的识别提供了一种新思路，提高了关键蛋白质识别的准确性和识别效率，降低了成本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。