CN105956605A

CN105956605A - 基于并行k-means聚类的三维结构相似性聚类方法

Info

Publication number: CN105956605A
Application number: CN201610250864.8A
Authority: CN
Inventors: 吴闯; 吴宏杰; 宋龙飞; 陈成
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2016-09-21
Anticipated expiration: 2036-04-21
Also published as: CN105956605B

Abstract

本发明公开了基于并行k‑means聚类的三维结构相似性聚类方法，包括以下几步：初始化K个聚类中心，分割本地数据；数据集分别得到各自对应的k‑means；并行T个k‑means获得聚类结果集，在最优叠加后，对模型结构与天然结构的三维结构相似度进行度量，获得模型结构与天然结构的相似性关系；合并T个k‑means结果集，获得候选集对应的聚类矩阵V；将步骤四中获得的结果集V分割；更新K个聚类集中心；判断是否满足终止条件，如果是进行下一步，如果否返回第一步；输出结果集C₁……C_i……C_k。本发明的方法解决了三维结构相似性聚类中计算耗时和数据量大的问题。

Description

基于并行k-means聚类的三维结构相似性聚类方法

技术领域

本发明涉及三维结构相似性聚类领域，尤其是蛋白三维结构相似性聚类，具体涉及基于并行k-means聚类的三维结构相似性聚类方法。

背景技术

依据三维结构相似性进行聚类是指在三维空间中，以两组点集合的三维相似性为距离，进行相似性聚类，期待结构相近的聚成类，在材料、生物、工程中都有广泛的应用。其中在生物领域的典型应用是蛋白质三维结构聚类，这是在蛋白质三维结构预测,功能和交互预测中的一个重要步骤。在蛋白质结构预测方法中,蛋白质结构聚类的任务是基于三维结构的相似聚类算法，从自由建模或模板建模生成的大规模的候选集中选择最好的近天然构象。RMSD和TM-score是当前衡量三维结构候选对象相识度的两个通用的标准。

Z Yang，S Jeffrey开发了SPICKER算法，它是一种通过聚类分析来识别近天然构象的简单有效策略。在SPICKER中，聚类是使用一组收缩规模大小的单步执行过程,而且候选构象对之间结构相似性阈值在迭代过程中动态调整。在标记一组1489个非同源的蛋白质后，这就表示在蛋白质资料库(PDB)中的所有的蛋白质结构拥有超过200个残留物。Clusco是为比较高通量蛋白质的模型而开发的软件，它使用了不同的计算相似性的策略(cRMSD dRMSD,GDT TS、TM-Score MaxSub,Contact Map Overlap)，同时它也用k-means聚类或合成聚类的标准方法来比较结果的聚类。这个应用程序是高度优化，它使用C/C++进行编写,包括CPU和GPU并行执行的代码部分,这使得当前程序远远快于其他相似的聚类和得分估算程序。B Francois，S Rojan，Z Yong，S David和KYJ Zhang提出了一种快速的方法,它即使在大规模的候选集中也有可以起作用。该方法应用在一个叫作Durandal的软件中。Durandal已被证明始终比其他快速准确的聚类软件更快。在某些情况下,Durandal甚至可以比一个近似计算方法更快。Durandal在不影响功能的距离情况下，利用三角不等式加速精确聚类速度。

在目前常用的三维结构聚类算法中，存在两个问题制约着算法的效率。第一，候选集中包含大量的候选模型，在10K-100K之间。所以如何处理内存溢出和耗时的任务已成为一个紧迫的问题。以一个含有50K候选模型的候选集为例，如果每个浮点型数据占4字节，那么这个算法将需要5*104*5*104*4＝25*1010(232兆)字节的内存来存储矩阵的距离。另一个问题是如何精确地度量两种蛋白质的相似性。RMSD和TM-score是两个广泛运用衡量蛋白质相识度的策略。但是由于它们在局部结构和整体结构有不同的侧重点，所以我们很难区分哪一个是衡量蛋白质相似的最佳度量。

发明内容

本发明的目的在于克服现有技术存在的以上问题，提供一种基于并行k-means聚类的三维结构相似性聚类方法，本发明的方法解决了三维结构相似性聚类中计算耗时和数据量大的问题。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种基于并行k-means聚类的三维结构相似性聚类方法，包括以下几步：

步骤一：初始化K个聚类中心，分割本地数据，获得1号数据集、2号数据集、3号数据集……i号数据集……T号数据集；

步骤二：1号数据集、2号数据集、3号数据集……i号数据集……T号数据集分别用T个独立的k-means方法聚类；

步骤三：并行T个k-means获得聚类结果集C₁……C_i……C_t，在最优叠加后，对模型结构与天然结构的三维结构相似度进行度量，获得模型结构与天然结构的相似性关系；

步骤四：依据T组聚类中心的相似度，合并T个k-means结果集C₁……C_i……C_t，若两个簇中心相近，则合并此两个簇中的所有数据，从而获得本轮的结果集V；

步骤五：在步骤四中获得的结果集V中有K个聚类集，1号聚类集、2号聚类集、3号聚类集……i号聚类集……K号聚类集；

步骤六：更新步骤五中的K个聚类集中心；

步骤七：判断是否满足终止条件，如果是进行步骤八，如果否返回步骤一；

步骤八：输出结果集C₁……C_i……C_k；

其中，T和K均为不大于100的正整数。

在本发明的一个较佳实施例中，进一步包括，步骤三中并行T个k-means聚类算法为：

T个k-means聚类算法，MK-means(V,E,K,T),

输入：V是N个候选集对应的距离矩阵，E是候选集对应的能量值集，K是聚类的数量，k是聚类集的索引；

输出：聚类集合C₁……C_k，k为聚类的索引；

算法如下：

1:Initialize(V,K)；

2:whileε＜Δdo

3:V^T←Divide(V,E,T)；

4:for t＝1 to T do

5:

6:end for

7:

8:V^K←Divide(V,E,K)；

9:for k＝1 to K do

10:C_k←Update(V^K,k)；

11:end for

12:

13:end while

Output:C₁..C_k。

在本发明的一个较佳实施例中，进一步包括，步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法包括均方根偏差法，在最优叠加后，模型结构与天然结构的等效原子之间，使用均方根偏差RMSD评价两个模型之间的相似性；

R M S D = \sqrt{\frac{1}{N} Σ_{1}^{N} (x_{i}^{2} - x_{j}^{2}) + (y_{i}^{2} - y_{j}^{2}) + (z_{i}^{2} - z_{j}^{2})}

其中，N是对应的两个蛋白质i和j之间原子的数量，它们的坐标分别是(x_i,y_i,z_i)(x_j，y_j，z_j)。

在本发明的一个较佳实施例中，进一步包括，步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法包括模板建模评分法，模板建模评分函数TM-score：

T M - s c o r e = M a x [\frac{1}{L_{n}} Σ_{i}^{L_{a}} \frac{1}{1 + {(\frac{d_{i}}{d_{0}})}^{2}}]

其中，Ln是天然结构的长度，La是对齐的残留模板结构的长度，d_i是第i对对齐的残留物之间的距离，d₀是一个弱化相匹配物不同之处的衡量，Max是最优空间叠加后的最大价值。

在本发明的一个较佳实施例中，进一步包括，在进行步骤一初始化K个聚类中心之前进行数据集准备，采用I-TASSER Set-I为基准,I-TASSER Set-I中含28组非同源蛋白质的原子结构的候选集，它们骨架结构由I-TASSER从头建模生成，使用Pulchra添加侧链原子。

本发明的有益效果是:

传统的聚类方法在SPIKER集上有基本相同的性能，但是，由MK-means 标识的聚类中心的蛋白质模型优于由SPICKER标识的蛋白质模型，MK-means能够很好地从28个蛋白质识别出19(67％)个蛋白质，这些蛋白质模型比SPICKER选择的蛋白质模型更加相似于天然蛋白质。并且，为了评估指定聚类方法整体性能,Z-score方程式被用来计算最小RMSD和第一个聚类质心的RMSD之间的均方根偏差。对于MK-means来说，Z-score计算的结果是2.98,它将SPICKER的Z-score值3.74下降了20.3％。

从头预测方法的结构异构性与模板建模生成的新的种群，导致不同数据集的局部相似度差异性较大。这些局部相似性通过他们对整体相似性度量的贡献来检测。多重聚类使用多个k-means模型检测在两个集群成员之间的最大距离,以确定哪些集群加入。这更有利于形成更多的发散最终有共同不一致有预测地方特色聚类模型。同样地，把提升聚类精确度的改进归功于使用并行k-means方法，从而能更好地发觉整体度量上共享的局部相似点的细微影响，因此，本发明的方法，在三维结构相似性聚类中，减少了内存和时间的消耗。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

为了更清楚地说明本发明实施例技术中的技术方案，下面将对实施例技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的方法流程图；

图2是本发明Z-score方程式计算结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例中公开了一种基于并行k-means聚类的三维结构相似性聚类方法，包括以下步骤：

(一)数据集准备

在本实施例中，采用I-TASSER Set-I为基准,I-TASSER Set-I中含28组非同源蛋白质的原子结构的候选集，它们骨架结构由I-TASSER从头建模生成，使用Pulchra添加侧链原子。

如表1中所示，数据集的摘要信息(表2中的28个的平均值)

(二)基于并行k-means聚类的三维结构相似性聚类方法，如图1中所示，具体步骤如下：

步骤一：初始化K个聚类中心，分割本地数据，获得1号数据集、2号数据集、3号数据集……i号数据集……T号数据集。

步骤二：1号数据集、2号数据集、3号数据集……i号数据集……T号数据集分别用T个独立的k-means方法聚类。

步骤三：并行T个k-means获得聚类结果集C₁……C_i……C_t，在最优叠加后，对模型结构与天然结构的三维结构相似度进行度量，获得模型结构与天然结构的相似性关系。

步骤四：依据T组聚类中心的相似度，合并T个k-means结果集C₁…… C_i……C_t，若两个簇中心相近，则合并此两个簇中的所有数据，从而获得本轮的结果集V。

步骤五：在步骤四中获得的结果集V中有K个聚类集，1号聚类集、2号聚类集、3号聚类集……i号聚类集……K号聚类集。

步骤六：更新步骤五中的K个聚类集中心。

步骤七：判断是否满足终止条件，如果是进行步骤八，如果否返回步骤一。

步骤八：输出结果集C₁……C_i……C_k。

其中，T和K均为不大于100的正整数。

步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法有两种，(1)均方根偏差法，在最优叠加后，模型结构与天然结构的等效原子之间，使用均方根偏差RMSD评价两个模型之间的相似性；

R M S D = \sqrt{\frac{1}{N} Σ_{1}^{N} (x_{i}^{2} - x_{j}^{2}) + (y_{i}^{2} - y_{j}^{2}) + (z_{i}^{2} - z_{j}^{2})} - - - (1)

(2)模板建模评分法：

由于RMSD是独立的，它不足以全面地估计两种蛋白质的相似性，因为使用不同的方法得到的对齐覆盖率也是迥然不同的。显而易见，拥有一个RMSD且相对于天然结构有对齐覆盖率50％的模板并不一定比一个RMSD且有80％的覆盖率结构更好。而这个对齐地区的模板比之前的更好,因为更少的残留是对对齐的,生成的完整的模型的可能有较差的质量。模板建模评分(TM-score)函数是一个变化的Levitt-Gerstein(LG)得分，它第一次使用顺序独立结构调整。模板建模评分函数TM-score：

T M - s c o r e = M a x [\frac{1}{L_{n}} Σ_{i}^{L_{a}} \frac{1}{1 + {(\frac{d_{i}}{d_{0}})}^{2}}] - - - (2)

其中，Ln是天然结构的长度，La是对齐的残留模板结构的长度，di是第i对对齐的残留物之间的距离，d0是一个弱化相匹配物不同之处的衡量，Max是最优空间叠加后的最大价值。

(三)算法：

经典单k-means聚类算法包括平均步骤和更新质心步骤。从整个候选集中随机初始化后的k重心(算法1，第1行)，平均步骤计算每个构象的质心的距离和组的构象最近的重心。

更新重心步骤是从第k个聚类中选择新的重心。在我们的多个平行的k-means算法中，平均步骤构建主线程作为监控线程，在分割本地数据后(算法1，第3行)，它分出N个新线程来独立执行k-means聚类(算法1，4-6行)。采用一个基于能源权重方法从不同集群选择构象体，然后将它们合并成一个完整的候选集(算法1，第7行)。之后，在更新重心的步骤中，监控线程再次分出K个线程。最后我们重复划分V，直到C_k和C_k′之间的差别ε小于阀值，这将表示算法已经收敛，如算法1。OpenMP用于MK-means来支持多线程。

在本实施例中，步骤三中并行T个k-means聚类算法为：

T个k-means聚类算法，MK-means(V,E,K,T),

输出：聚类集合C₁……C_k，k为聚类的索引；

算法1如下：

1:Initialize(V,K)；

2:whileε＜Δdo

3:V^T←Divide(V,E,T)；

4:for t＝1 to T do

5:

6:end for

7:

8:V^K←Divide(V,E,K)；

9:for k＝1 to K do

10:C_k←Update(V^K,k)；

11:end for

12:

13:end while

Output:C₁..C_k。

(四)效果对比

比较的结果广泛运用蛋白质集群工具,SPICKER,它使用I-TASSER Set-I数据。结果显示在下面的表2中。

表2SPICKER和MK-means在28个蛋白质候选集的比较结果

其中，在表2中，a蛋白质序列的长度；b候选集中蛋白质模型的数量；c候选集中最好的(最小)RMSD蛋白质模型；d SPICKER选择出的最大聚类的几何中心模型的RMSD；e MK-means选择出的最大聚类的几何中心模型的RMSD(粗体表示比SPICKER好)。

现有的聚类方法在SPIKER集上有基本相同的性能。但是，在表2中，由MK-means标识的聚类中心的蛋白质模型优于由SPICKER标识的蛋白质模型。MK-means能够很好地从28个蛋白质识别出19(67％)个蛋白质，这些蛋白质模型比SPICKER选择的蛋白质模型更加相似于天然蛋白质。

如图2所示，为了评估指定聚类方法整体性能,Z-score方程式被用来计算最小RMSD和第一个聚类质心的RMSD之间的均方根偏差。对于MK-means来说，Z-score计算的结果是2.98,它将SPICKER的Z-score值3.74下降了20.3％。

Z - s c o r e = \frac{Σ_{1}^{N} \sqrt{{RMSD}_{C i u s t e r}^{2} - {RMSD}_{M i n}^{2}}}{N} - - - (3)

从头预测方法的结构异构性与模板建模生成的新的种群，导致不同数据集的局部相似度差异性较大。这些局部相似性通过他们对整体相似性度量的贡献来检测。多重聚类使用多个k-means模型检测在两个集群成员之间的最大距离,以确定哪些集群加入。这更有利于形成更多的发散最终有共同不一致有预测地方特色聚类模型。同样地，我们把提升聚类精确度的改进归功于使用并行k-means方法，从而能更好地发觉整体度量上共享的局部相似点的细微影响。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于并行k-means聚类的三维结构相似性聚类方法，其特征在于，包括以下几步：

步骤六：更新步骤五中的K个聚类集中心；

步骤八：输出结果集C₁……C_i……C_k；

其中，T和K均为不大于100的正整数。

2.根据权利要求1所述的基于并行k-means聚类的三维结构相似性聚类方法，其特征在于，步骤三中并行T个k-means聚类算法为：

T个k-means聚类算法，MK-means(V,E,K,T),

输出：聚类集合C₁……C_k，k为聚类的索引；

算法如下：

1:Initialize(V,K)；

2:whileε＜Δdo

3:V^T←Divide(V,E,T)；

4:for t＝1to T do

5:

6:end for

7:

8:V^K←Divide(V,E,K)；

9:for k＝1to K do

10:C_k←Update(V^K,k)；

11:end for

12:

13:end while

Output:C₁..C_k。

3.根据权利要求1所述的基于并行k-means聚类的三维结构相似性聚类方法，其特征在于，步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法包括均方根偏差法，在最优叠加后，模型结构与天然结构的等效原子之间，使用均方根偏差RMSD评价两个模型之间的相似性；

4.根据权利要求1所述的基于并行k-means聚类的三维结构相似性聚类方法，其特征在于，步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法包括模板建模评分法，模板建模评分函数TM-score：

T M - s c o r e = M a x [\frac{1}{L_{n}} Σ_{i}^{L_{a}} \frac{1}{1 + {(\frac{d_{i}}{d_{0}})}^{2}}]

5.根据权利要求1所述的基于并行k-means聚类的三维结构相似性聚类方法，其特征在于，在进行步骤一初始化K个聚类中心之前进行数据集准备，采用I-TASSER Set-I为基准,I-TASSER Set-I中含28组非同源蛋白质的原子结构的候选集，它们骨架结构由I-TASSER从头建模生成，使用Pulchra添加侧链原子。