CN111128301A

CN111128301A - 一种基于模糊聚类的重叠蛋白质复合物识别方法

Info

Publication number: CN111128301A
Application number: CN201911241247.1A
Authority: CN
Inventors: 魏妮妮
Original assignee: Beibu Gulf University
Current assignee: Beibu Gulf University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-08

Abstract

本发明提供了一种基于模糊聚类的重叠蛋白质复合物识别方法，主要是根据同一复合物中蛋白质稠密连接的特性以及蛋白质在蛋白质复合物中的模糊性，构造了一个最大化优化问题，并利用本发明中的算法去解决这个最优化问题，使得对于每种蛋白质，可以确定其对于特定复合物的隶属度，隶属关系的模糊性是的迭代计算的，进而能最大限度地提高同一个簇中蛋白质之间相互作用的可能性，能够很好地完成识别任务，具有更好的准确度，实验结果表明该算法具有较高的准确性，能够很好的完成识别任务。

Description

一种基于模糊聚类的重叠蛋白质复合物识别方法

技术领域

本发明属于蛋白质复合物识别方法技术领域，具体涉及一种基于模糊聚类的重叠蛋白质复合物识别方法。

背景技术

蛋白质复合物作为一种稳定的大分子组装体，其在执行细胞稳态、生长和增殖等多种多样的生化活动过程中发挥着重要的作用。由于，蛋白质复合物的识别可以使用我们更好的理解不同细胞系统中的蛋白质机制。因此，近年来从蛋白质相互作用网络(proteininteraction network,PIN)中进行蛋白质复合物识别的问题受到越来越多的关注。为了实现蛋白质复合物的识别人们提出了大量的生物实验方法和计算方法。

实验方法是通过实验测定来进行蛋白质复合物识别，例如免疫共沉淀和双杂交系统。基于实验技术得到的结果可靠，但这种技术存在的主要缺点是识别分析时间长，对于专业知识水平要求较高。因此，计算方法被认为是蛋白质复合物识别的首选方法。一般来说，PIN被定义为一个图，图的顶点表示蛋白质，图中的边用来表示蛋白质之间的相互作用，蛋白质复合物识别问题可表示为一个图聚类问题，通过聚类生成的图形簇被认为是蛋白质复合物。这些图聚类算法是纯粹依赖于PINS的拓扑结构信息去识别遵循某些结构特性的蛋白质复合物的计算方法，其中还有马尔科夫聚类(MCL)算法是将图中紧密相连的区域视为蛋白质复合物，并通过使用扩展操作和膨胀操作模拟流动的膨胀和收缩来识别这些区域。MCODE是另一种流行的图聚类算法，它通过使用节点权重而不是转移矩阵来考虑局部邻居密度来检测 PINS的稠密簇。

上述这些算法在识别蛋白质复合物时是准确的，但是不能确定蛋白质复合物其对于特定复合物的隶属度，不能最大限度地提高同一个簇中蛋白质之间相互作用的可能性，识别性能较差。

发明内容

本发明所要解决的技术问题在于针对上述现有技术的不足，提供一种基于模糊聚类的重叠蛋白质复合物识别方法，以解决上述背景技术中提出的现有的蛋白质复合物识别方法不能确定蛋白质复合物其对于特定复合物的隶属度，不能最大限度地提高同一个簇中蛋白质之间相互作用的可能性，识别性能较差问题。

为解决上述技术问题，本发明采用的技术方案是：一种基于模糊聚类的重叠蛋白质复合物识别方法，包括以下步骤：

S1、输入蛋白质相互作用网络G，分类个数K，常数α，β，θ，隶属度终止容限ε，最大迭代步长l_max，然后输出隶属度矩阵U，

其中G由一个二元组组成，即G＝{V，E}，

V表示蛋白质复合物的识别问题的顶点，V＝{v_i}(1≤i≤m)，其中每个v_i表示一个蛋白质，同时V将被划分成K个簇，表示为

其中每个簇被认为是一种已识别的蛋白质复合物，定义u_if表示v_i属于 C_f簇的隶属值，即u_if表示用来确定v_i划分到蛋白质复合物C_f簇的可能性，

E表示图中边的集合，E＝{e_ij}，其中e_ij表示蛋白质与蛋白质之间的相互作用关系，如果存在一个e_ij∈E，则表示蛋白质顶点v_i和蛋白质顶点v_j在图G中邻接关系，隶属度矩阵被定义为

U＝(u₁，u₂，u₃，...，u_m)

其中uⁱ(1≤i≤m)表示隶属度分布向量；

S2、将G用一个邻接矩阵D来进行表示，D＝[d_ij](1≤i，j≤m)，其中每个元素d_ij的取值可以用如下公式表示：

S3、用随机产生的非负值初始化U，并使用如下公式对U进行规范化处理：

S4、初始化l＝1，表示第1步迭代，同时利用如下公式更新λ^(l+1)：

其中S^(l+1)由公式

来计算，

根据的KKT条件，ΩοU＝0且Ω≥0，ω_if可被定义为：

Ω^(l+1)由公式

来计算，

且假设U中的所有其它元素的u_if都是t已知，在经过一些代数操作之后，u_if的解为：

则U^(l+1)由公式

来更新，然后在利用S3中的公式对U^(l+1)进行规范化处理，然后再计算计算隶属度终止容限值：

ε^(l+1)＝|L(U^(l+1)，λ^(l+1)，Ω^(l+1))-L(U^(l)，λ^(l)，Ω^(l))|

S5、当ε^(l+1)≤ε或者迭代变量值l＞l_max时迭代停止，否则转到 S4中再去去重复执行，最终返回隶属度矩阵U^(l)，完成算法的识别过程。

优选的，在S1中，定义的目标函数为：

其中s.t.U1＝1，U≥0

α，β，和θ是取值在[0，1]之间的常数。

是矩阵U的F范数的平方，

S＝[s_if]是一个长度为m×K的矩阵，矩阵的每个元素可以由公式

表示为：

优选的，为了验证所识别的蛋白质复合物的稠密结构，我们将对目标函数的分析限定在第一项中与D有关的部分，并使用微量表达式进行重写公式为：

优选的，为了度量本文算法所识别的蛋白质复合物与标准集中蛋白质复合物之间的匹配程度，采用匹配率进行度量，匹配率度量表示为MR-measure，定义MR表示为：

其中，b_i是标准数据集中的第i个蛋白质复合物，是c∈C是识别出的蛋白质复合物，

n(c，b_i)是c和b_i共有的蛋白质的数量，

n(c)表示识别出的蛋白质复合c中蛋白质的数量，

n(b_i)表示标准数据集中蛋白质复合物b_i中蛋白质的数量。

本发明与现有技术相比具有以下优点：

本发明中的蛋白质复合物识别的模糊聚类算法主要是根据同一复合物中蛋白质稠密连接的特性以及蛋白质在蛋白质复合物中的模糊性，构造了一个最大化优化问题，并利用本发明中的算法去解决这个最优化问题，使得对于每种蛋白质，可以确定其对于特定复合物的隶属度，隶属关系的模糊性是的迭代计算的，进而能最大限度地提高同一个簇中蛋白质之间相互作用的可能性，能够很好地完成识别任务，具有更好的准确度。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1，本发明提供一种技术方案：一种基于模糊聚类的重叠蛋白质复合物识别方法，包括以下步骤：

其中G由一个二元组组成，即G＝{V，E}，

U＝(u₁，u₂，u₃，...，u_m)

其中uⁱ(1≤i≤m)表示隶属度分布向量；

其中S^(l+1)由公式

来计算，

根据的KKT条件，ΩοU＝0且Ω≥0，ω_if可被定义为：

Ω^(l+1)由公式

来计算，

则U^(l+1)由公式

ε^(l+1)＝|L(U^(l+1)，λ^(l+1)，Ω^(l+1))-L(U^(l)，λ^(l)，Ω^(l))|

在S1中，定义的目标函数为：

其中s.t.U1＝1，U≥0

α，β，和θ是取值在[0，1]之间的常数。

是矩阵U的F范数的平方，

表示为：

同时为了验证所识别的蛋白质复合物的稠密结构，我们将对目标函数的分析限定在第一项中与D有关的部分，并使用微量表达式进行重写公式为：

为了度量本文算法所识别的蛋白质复合物与标准集中蛋白质复合物之间的匹配程度，采用匹配率进行度量，匹配率度量表示为 MR-measure，定义MR表示为：

n(c，b_i)是c和b_i共有的蛋白质的数量，

n(c)表示识别出的蛋白质复合c中蛋白质的数量，

n(b_i)表示标准数据集中蛋白质复合物b_i中蛋白质的数量。

实验结果及分析，使用Gavin 2006和Collins 2007两组酵母蛋白质相互作用网络数据进行性能评价，其中Gavin 2006和Collins 2007 数据都是从酿酒酵母中采集的。Gavin 2006和Collins 2007可以从 BioGRID数据库进行下载，在使用这两个数据集之前，我们进行了数据预处理来清洗PIN中的数据。我们从PIN中删除了所有的自相互作用和重复相互作用。执行了去除操作后Gavin 2006包含1430个蛋白质，相互作用数目为6531；Collins 2007包含了1620个蛋白质，相互作用数目为9064，为了对算法进行评估，对截至2013年3月11 日前的MIPS/CYGD和CYC2008数据库中已知的蛋白质复合物的鉴定结果进行比较，MIPS/CYGD中的复合物属于酿酒酵母，已知的蛋白质复合物有255种。此外，还将CYC2008中已知的蛋白复合物作为标准数据集中的一部分，CYC2008中已知的蛋白质复合物有408 个，结合MIPS/CYGD与CYC2008最终得到557个已知的酿酒酵母蛋白质复合物；

IOPC-FC算法涉及到的参数值是通过找到使F-Measure得到最佳平均值的参数集进行设置，IOPC-FC算法在实现识别识别蛋白质复合物过程中，关键的问题是确定蛋白质复合物的数量，即值，但是目前并没有关于每个PIN的复合物数量的先验知识可用，局限性较大。

而本申请中提出算法可以通过去除冗余复合体来自适应地确定复合体的数量，可将K设置为更大的值。在我们的实验中设置K＝500，常数ɑ、β、θ的值从集合{1,0.1,0.01,0.01,0.001}中选择,通过多次实验发现，迭代步长设置为20，隶属度终止容限ε设置为0.01，算法性能表现最佳。

为了说明本文算法的有效性，我们使用IOPC-FC算法与MCL、 MCODE、Coach、CMC、CFinder、IPCA、DPClus和ClusterONE七种算法进行比较，下表为8种算法在Gavin数据集上的比较结果：

Algorithms	IOPC-FC	MCL	MCODE	COACH	CMC	CFinder	IPCA	ClusterONE
									Number	494	189	69	328	317	274	455	243
Precision	0.577	0.510	0.667	0.517	0.346	0.728	0.461	0.390
									Recall	0.392	0.290	0.145	0.323	0.312	0.313	0.219	0.347
F-Score	0.466	0.369	0.239	0.397	0.346	0.438	0.270	0.367

表1

下表为8种算法在collins数据集上的比较结果：

Algorithms	IOPC-FC	MCL	MCODE	COACH	CMC	CFinder	IPCA	ClusterONE
									Number	488	264	117	246	176	312	312	196
Precision	0.560	0.609	0.795	0.517	0.648	0.590	0.511	0.627
									Recall	0.412	0.508	0.291	0.352	0.335	0.346	0.221	0.517
F-Score	0.475	0.554	0.426	0.419	0.442	0.436	0.309	0.567

表2

从上面两个表中可以清楚的看出，IOPC-FC算法与基于密度结构的蛋白质复合物识别算法进行比较，IOPC-FC具有更好的性能，特别是IOPC-FC相对于MCODE算法作用在Gavin 2006和Collins 2007数据集上进行蛋白质复合物识别准确度分别提高了94％和12％，作用于Gavin 2006 数据集上，IOPC-FC优于MCL，在F-Measure值上获得26％的相对增益。然而，在Collins2007数据集上，IOPC-FC算法的F-Measure值不如MCL 算法的F-Measure值，从F-Measure值的角度看，在8个算法中MCL获得了最佳的性能。在Collins2007数据集上MCL算法优于IOPC-FC算法的部分原因在于MCL算法识别蛋白质复合物数量相比于IOPC-FC算法要少很多，在第一个表中我们也能够观察到在Gavin 2006数据集上，本文提出算法在8种算法中获得了最佳的F-Measure值，因而模糊聚类的应用使得本文提出的算法能够充分利用PIN的结构信息，从而获得更加可靠的聚类效果。

同时IOPC-FC算法在与基于最大团的思想的CMC和CFinder算法相比较时，IOPC-FC算法性能表现不比这两种方法差，在Gavin 2006数据集上IOPC-FC算法性能比CMC和CFinder分别提高了35％和6％，在 Collins2007数据集上IOPC-FC算法性能比CMC和CFinder分别提高了 12％和9％。

IOPC-FC算法算法在与基于核心附件结构的方法COACH相比，我们再次观察到IOPC-FC算法具有较强的性能。从表1和表2中可以看出，本文算法在Gavin 2006和Collins2007的f-score值分别获得了17％和13％的相对增益。

此外，IOPC-FC算法在F-Measure值方面表现与基于距离预测的IPCA 算法相比也有很大差距。在Collins2007数据集上，IOPC-FC算法在识别蛋白质复合物的准确度方面相对提高了54％。在与基于重叠邻居扩张思想的ClusterONE算法相比，在Gavin2006数据集上IOPC-FC算法的性能相对提高了27％。

通过对上述实验结果分析，我们发现本文算法在大多数情况下都能产生最佳性能，综合平均F-Measure值，我们的算法优于MCL算法2％， MCODE算法42％，COACH算法15％，CMC算法21％，CFinder算法 8％，IPCA算法43％，ClusterONE算法1％。因此基于模糊聚类的算法可以更容易、更准确地识别蛋白质复合物。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。