CN105956605A - 基于并行k-means聚类的三维结构相似性聚类方法 - Google Patents

基于并行k-means聚类的三维结构相似性聚类方法 Download PDF

Info

Publication number
CN105956605A
CN105956605A CN201610250864.8A CN201610250864A CN105956605A CN 105956605 A CN105956605 A CN 105956605A CN 201610250864 A CN201610250864 A CN 201610250864A CN 105956605 A CN105956605 A CN 105956605A
Authority
CN
China
Prior art keywords
cluster
similarity
dimensional structure
parallel
number collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610250864.8A
Other languages
English (en)
Other versions
CN105956605B (zh
Inventor
吴闯
吴宏杰
宋龙飞
陈成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University of Science and Technology
Original Assignee
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University of Science and Technology filed Critical Suzhou University of Science and Technology
Priority to CN201610250864.8A priority Critical patent/CN105956605B/zh
Publication of CN105956605A publication Critical patent/CN105956605A/zh
Application granted granted Critical
Publication of CN105956605B publication Critical patent/CN105956605B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于并行k‑means聚类的三维结构相似性聚类方法,包括以下几步:初始化K个聚类中心,分割本地数据;数据集分别得到各自对应的k‑means;并行T个k‑means获得聚类结果集,在最优叠加后,对模型结构与天然结构的三维结构相似度进行度量,获得模型结构与天然结构的相似性关系;合并T个k‑means结果集,获得候选集对应的聚类矩阵V;将步骤四中获得的结果集V分割;更新K个聚类集中心;判断是否满足终止条件,如果是进行下一步,如果否返回第一步;输出结果集C1……Ci……Ck。本发明的方法解决了三维结构相似性聚类中计算耗时和数据量大的问题。

Description

基于并行k-means聚类的三维结构相似性聚类方法
技术领域
本发明涉及三维结构相似性聚类领域,尤其是蛋白三维结构相似性聚类,具体涉及基于并行k-means聚类的三维结构相似性聚类方法。
背景技术
依据三维结构相似性进行聚类是指在三维空间中,以两组点集合的三维相似性为距离,进行相似性聚类,期待结构相近的聚成类,在材料、生物、工程中都有广泛的应用。其中在生物领域的典型应用是蛋白质三维结构聚类,这是在蛋白质三维结构预测,功能和交互预测中的一个重要步骤。在蛋白质结构预测方法中,蛋白质结构聚类的任务是基于三维结构的相似聚类算法,从自由建模或模板建模生成的大规模的候选集中选择最好的近天然构象。RMSD和TM-score是当前衡量三维结构候选对象相识度的两个通用的标准。
Z Yang,S Jeffrey开发了SPICKER算法,它是一种通过聚类分析来识别近天然构象的简单有效策略。在SPICKER中,聚类是使用一组收缩规模大小的单步执行过程,而且候选构象对之间结构相似性阈值在迭代过程中动态调整。在标记一组1489个非同源的蛋白质后,这就表示在蛋白质资料库(PDB)中的所有的蛋白质结构拥有超过200个残留物。Clusco是为比较高通量蛋白质的模型而开发的软件,它使用了不同的计算相似性的策略(cRMSD dRMSD,GDT TS、TM-Score MaxSub,Contact Map Overlap),同时它也用k-means聚类或合成聚类的标准方法来比较结果的聚类。这个应用程序是高度优化,它使用C/C++进行编写,包括CPU和GPU并行执行的代码部分,这使得当前程序远远快于其他相似的聚类和得分估算程序。B Francois,S Rojan,Z Yong,S David和KYJ Zhang提出了一种快速的方法,它即使在大规模的候选集中也 有可以起作用。该方法应用在一个叫作Durandal的软件中。Durandal已被证明始终比其他快速准确的聚类软件更快。在某些情况下,Durandal甚至可以比一个近似计算方法更快。Durandal在不影响功能的距离情况下,利用三角不等式加速精确聚类速度。
在目前常用的三维结构聚类算法中,存在两个问题制约着算法的效率。第一,候选集中包含大量的候选模型,在10K-100K之间。所以如何处理内存溢出和耗时的任务已成为一个紧迫的问题。以一个含有50K候选模型的候选集为例,如果每个浮点型数据占4字节,那么这个算法将需要5*104*5*104*4=25*1010(232兆)字节的内存来存储矩阵的距离。另一个问题是如何精确地度量两种蛋白质的相似性。RMSD和TM-score是两个广泛运用衡量蛋白质相识度的策略。但是由于它们在局部结构和整体结构有不同的侧重点,所以我们很难区分哪一个是衡量蛋白质相似的最佳度量。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种基于并行k-means聚类的三维结构相似性聚类方法,本发明的方法解决了三维结构相似性聚类中计算耗时和数据量大的问题。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于并行k-means聚类的三维结构相似性聚类方法,包括以下几步:
步骤一:初始化K个聚类中心,分割本地数据,获得1号数据集、2号数据集、3号数据集……i号数据集……T号数据集;
步骤二:1号数据集、2号数据集、3号数据集……i号数据集……T号数据集分别用T个独立的k-means方法聚类;
步骤三:并行T个k-means获得聚类结果集C1……Ci……Ct,在最优叠加后,对模型结构与天然结构的三维结构相似度进行度量,获得模型结构与天然结构的相似性关系;
步骤四:依据T组聚类中心的相似度,合并T个k-means结果集C1……Ci……Ct,若两个簇中心相近,则合并此两个簇中的所有数据,从而获得本轮的结果集V;
步骤五:在步骤四中获得的结果集V中有K个聚类集,1号聚类集、2号聚类集、3号聚类集……i号聚类集……K号聚类集;
步骤六:更新步骤五中的K个聚类集中心;
步骤七:判断是否满足终止条件,如果是进行步骤八,如果否返回步骤一;
步骤八:输出结果集C1……Ci……Ck
其中,T和K均为不大于100的正整数。
在本发明的一个较佳实施例中,进一步包括,步骤三中并行T个k-means聚类算法为:
T个k-means聚类算法,MK-means(V,E,K,T),
输入:V是N个候选集对应的距离矩阵,E是候选集对应的能量值集,K是聚类的数量,k是聚类集的索引;
输出:聚类集合C1……Ck,k为聚类的索引;
算法如下:
1:Initialize(V,K);
2:whileε<Δdo
3:VT←Divide(V,E,T);
4:for t=1 to T do
5:
6:end for
7:
8:VK←Divide(V,E,K);
9:for k=1 to K do
10:Ck←Update(VK,k);
11:end for
12:
13:end while
Output:C1..Ck
在本发明的一个较佳实施例中,进一步包括,步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法包括均方根偏差法,在最优叠加后,模型结构与天然结构的等效原子之间,使用均方根偏差RMSD评价两个模型之间的相似性;
R M S D = 1 N Σ 1 N ( x i 2 - x j 2 ) + ( y i 2 - y j 2 ) + ( z i 2 - z j 2 )
其中,N是对应的两个蛋白质i和j之间原子的数量,它们的坐标分别是(xi,yi,zi)(xj,yj,zj)。
在本发明的一个较佳实施例中,进一步包括,步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法包括模板建模评分法,模板建模评分函数TM-score:
T M - s c o r e = M a x [ 1 L n Σ i L a 1 1 + ( d i d 0 ) 2 ]
其中,Ln是天然结构的长度,La是对齐的残留模板结构的长度,di是第i对对齐的残留物之间的距离,d0是一个弱化相匹配物不同之处的衡量,Max是最优空间叠加后的最大价值。
在本发明的一个较佳实施例中,进一步包括,在进行步骤一初始化K个聚类中心之前进行数据集准备,采用I-TASSER Set-I为基准,I-TASSER Set-I中含28组非同源蛋白质的原子结构的候选集,它们骨架结构由I-TASSER从头建模生成,使用Pulchra添加侧链原子。
本发明的有益效果是:
传统的聚类方法在SPIKER集上有基本相同的性能,但是,由MK-means 标识的聚类中心的蛋白质模型优于由SPICKER标识的蛋白质模型,MK-means能够很好地从28个蛋白质识别出19(67%)个蛋白质,这些蛋白质模型比SPICKER选择的蛋白质模型更加相似于天然蛋白质。并且,为了评估指定聚类方法整体性能,Z-score方程式被用来计算最小RMSD和第一个聚类质心的RMSD之间的均方根偏差。对于MK-means来说,Z-score计算的结果是2.98,它将SPICKER的Z-score值3.74下降了20.3%。
从头预测方法的结构异构性与模板建模生成的新的种群,导致不同数据集的局部相似度差异性较大。这些局部相似性通过他们对整体相似性度量的贡献来检测。多重聚类使用多个k-means模型检测在两个集群成员之间的最大距离,以确定哪些集群加入。这更有利于形成更多的发散最终有共同不一致有预测地方特色聚类模型。同样地,把提升聚类精确度的改进归功于使用并行k-means方法,从而能更好地发觉整体度量上共享的局部相似点的细微影响,因此,本发明的方法,在三维结构相似性聚类中,减少了内存和时间的消耗。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
为了更清楚地说明本发明实施例技术中的技术方案,下面将对实施例技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的方法流程图;
图2是本发明Z-score方程式计算结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例中公开了一种基于并行k-means聚类的三维结构相似性聚类方法,包括以下步骤:
(一)数据集准备
在本实施例中,采用I-TASSER Set-I为基准,I-TASSER Set-I中含28组非同源蛋白质的原子结构的候选集,它们骨架结构由I-TASSER从头建模生成,使用Pulchra添加侧链原子。
如表1中所示,数据集的摘要信息(表2中的28个的平均值)
(二)基于并行k-means聚类的三维结构相似性聚类方法,如图1中所示,具体步骤如下:
步骤一:初始化K个聚类中心,分割本地数据,获得1号数据集、2号数据集、3号数据集……i号数据集……T号数据集。
步骤二:1号数据集、2号数据集、3号数据集……i号数据集……T号数据集分别用T个独立的k-means方法聚类。
步骤三:并行T个k-means获得聚类结果集C1……Ci……Ct,在最优叠加后,对模型结构与天然结构的三维结构相似度进行度量,获得模型结构与天然结构的相似性关系。
步骤四:依据T组聚类中心的相似度,合并T个k-means结果集C1…… Ci……Ct,若两个簇中心相近,则合并此两个簇中的所有数据,从而获得本轮的结果集V。
步骤五:在步骤四中获得的结果集V中有K个聚类集,1号聚类集、2号聚类集、3号聚类集……i号聚类集……K号聚类集。
步骤六:更新步骤五中的K个聚类集中心。
步骤七:判断是否满足终止条件,如果是进行步骤八,如果否返回步骤一。
步骤八:输出结果集C1……Ci……Ck
其中,T和K均为不大于100的正整数。
步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法有两种,(1)均方根偏差法,在最优叠加后,模型结构与天然结构的等效原子之间,使用均方根偏差RMSD评价两个模型之间的相似性;
R M S D = 1 N Σ 1 N ( x i 2 - x j 2 ) + ( y i 2 - y j 2 ) + ( z i 2 - z j 2 ) - - - ( 1 )
其中,N是对应的两个蛋白质i和j之间原子的数量,它们的坐标分别是(xi,yi,zi)(xj,yj,zj)。
(2)模板建模评分法:
由于RMSD是独立的,它不足以全面地估计两种蛋白质的相似性,因为使用不同的方法得到的对齐覆盖率也是迥然不同的。显而易见,拥有一个RMSD且相对于天然结构有对齐覆盖率50%的模板并不一定比一个RMSD且有80%的覆盖率结构更好。而这个对齐地区的模板比之前的更好,因为更少的残留是对对齐的,生成的完整的模型的可能有较差的质量。模板建模评分(TM-score)函数是一个变化的Levitt-Gerstein(LG)得分,它第一次使用顺序独立结构调整。模板建模评分函数TM-score:
T M - s c o r e = M a x [ 1 L n Σ i L a 1 1 + ( d i d 0 ) 2 ] - - - ( 2 )
其中,Ln是天然结构的长度,La是对齐的残留模板结构的长度,di是第i对对齐的残留物之间的距离,d0是一个弱化相匹配物不同之处的衡量,Max是最优空间叠加后的最大价值。
(三)算法:
经典单k-means聚类算法包括平均步骤和更新质心步骤。从整个候选集中随机初始化后的k重心(算法1,第1行),平均步骤计算每个构象的质心的距离和组的构象最近的重心。
更新重心步骤是从第k个聚类中选择新的重心。在我们的多个平行的k-means算法中,平均步骤构建主线程作为监控线程,在分割本地数据后(算法1,第3行),它分出N个新线程来独立执行k-means聚类(算法1,4-6行)。采用一个基于能源权重方法从不同集群选择构象体,然后将它们合并成一个完整的候选集(算法1,第7行)。之后,在更新重心的步骤中,监控线程再次分出K个线程。最后我们重复划分V,直到Ck和Ck′之间的差别ε小于阀值,这将表示算法已经收敛,如算法1。OpenMP用于MK-means来支持多线程。
在本实施例中,步骤三中并行T个k-means聚类算法为:
T个k-means聚类算法,MK-means(V,E,K,T),
输入:V是N个候选集对应的距离矩阵,E是候选集对应的能量值集,K是聚类的数量,k是聚类集的索引;
输出:聚类集合C1……Ck,k为聚类的索引;
算法1如下:
1:Initialize(V,K);
2:whileε<Δdo
3:VT←Divide(V,E,T);
4:for t=1 to T do
5:
6:end for
7:
8:VK←Divide(V,E,K);
9:for k=1 to K do
10:Ck←Update(VK,k);
11:end for
12:
13:end while
Output:C1..Ck
(四)效果对比
比较的结果广泛运用蛋白质集群工具,SPICKER,它使用I-TASSER Set-I数据。结果显示在下面的表2中。
表2SPICKER和MK-means在28个蛋白质候选集的比较结果
其中,在表2中,a蛋白质序列的长度;b候选集中蛋白质模型的数量;c候选集中最好的(最小)RMSD蛋白质模型;d SPICKER选择出的最大聚类的几何中心模型的RMSD;e MK-means选择出的最大聚类的几何中心模型的RMSD(粗体表示比SPICKER好)。
现有的聚类方法在SPIKER集上有基本相同的性能。但是,在表2中,由MK-means标识的聚类中心的蛋白质模型优于由SPICKER标识的蛋白质模型。MK-means能够很好地从28个蛋白质识别出19(67%)个蛋白质,这些蛋白质 模型比SPICKER选择的蛋白质模型更加相似于天然蛋白质。
如图2所示,为了评估指定聚类方法整体性能,Z-score方程式被用来计算最小RMSD和第一个聚类质心的RMSD之间的均方根偏差。对于MK-means来说,Z-score计算的结果是2.98,它将SPICKER的Z-score值3.74下降了20.3%。
Z - s c o r e = Σ 1 N RMSD C i u s t e r 2 - RMSD M i n 2 N - - - ( 3 )
从头预测方法的结构异构性与模板建模生成的新的种群,导致不同数据集的局部相似度差异性较大。这些局部相似性通过他们对整体相似性度量的贡献来检测。多重聚类使用多个k-means模型检测在两个集群成员之间的最大距离,以确定哪些集群加入。这更有利于形成更多的发散最终有共同不一致有预测地方特色聚类模型。同样地,我们把提升聚类精确度的改进归功于使用并行k-means方法,从而能更好地发觉整体度量上共享的局部相似点的细微影响。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种基于并行k-means聚类的三维结构相似性聚类方法,其特征在于,包括以下几步:
步骤一:初始化K个聚类中心,分割本地数据,获得1号数据集、2号数据集、3号数据集……i号数据集……T号数据集;
步骤二:1号数据集、2号数据集、3号数据集……i号数据集……T号数据集分别用T个独立的k-means方法聚类;
步骤三:并行T个k-means获得聚类结果集C1……Ci……Ct,在最优叠加后,对模型结构与天然结构的三维结构相似度进行度量,获得模型结构与天然结构的相似性关系;
步骤四:依据T组聚类中心的相似度,合并T个k-means结果集C1……Ci……Ct,若两个簇中心相近,则合并此两个簇中的所有数据,从而获得本轮的结果集V;
步骤五:在步骤四中获得的结果集V中有K个聚类集,1号聚类集、2号聚类集、3号聚类集……i号聚类集……K号聚类集;
步骤六:更新步骤五中的K个聚类集中心;
步骤七:判断是否满足终止条件,如果是进行步骤八,如果否返回步骤一;
步骤八:输出结果集C1……Ci……Ck
其中,T和K均为不大于100的正整数。
2.根据权利要求1所述的基于并行k-means聚类的三维结构相似性聚类方法,其特征在于,步骤三中并行T个k-means聚类算法为:
T个k-means聚类算法,MK-means(V,E,K,T),
输入:V是N个候选集对应的距离矩阵,E是候选集对应的能量值集,K是聚类的数量,k是聚类集的索引;
输出:聚类集合C1……Ck,k为聚类的索引;
算法如下:
1:Initialize(V,K);
2:whileε<Δdo
3:VT←Divide(V,E,T);
4:for t=1to T do
5:
6:end for
7:
8:VK←Divide(V,E,K);
9:for k=1to K do
10:Ck←Update(VK,k);
11:end for
12:
13:end while
Output:C1..Ck
3.根据权利要求1所述的基于并行k-means聚类的三维结构相似性聚类方法,其特征在于,步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法包括均方根偏差法,在最优叠加后,模型结构与天然结构的等效原子之间,使用均方根偏差RMSD评价两个模型之间的相似性;
其中,N是对应的两个蛋白质i和j之间原子的数量,它们的坐标分别是(xi,yi,zi)(xj,yj,zj)。
4.根据权利要求1所述的基于并行k-means聚类的三维结构相似性聚类方法,其特征在于,步骤三中对模型结构与天然结构的三维结构相似度进行度量的方法包括模板建模评分法,模板建模评分函数TM-score:
T M - s c o r e = M a x [ 1 L n Σ i L a 1 1 + ( d i d 0 ) 2 ]
其中,Ln是天然结构的长度,La是对齐的残留模板结构的长度,di是第i对对齐的残留物之间的距离,d0是一个弱化相匹配物不同之处的衡量,Max是最优空间叠加后的最大价值。
5.根据权利要求1所述的基于并行k-means聚类的三维结构相似性聚类方法,其特征在于,在进行步骤一初始化K个聚类中心之前进行数据集准备,采用I-TASSER Set-I为基准,I-TASSER Set-I中含28组非同源蛋白质的原子结构的候选集,它们骨架结构由I-TASSER从头建模生成,使用Pulchra添加侧链原子。
CN201610250864.8A 2016-04-21 2016-04-21 基于并行k-means聚类的三维结构相似性聚类方法 Expired - Fee Related CN105956605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610250864.8A CN105956605B (zh) 2016-04-21 2016-04-21 基于并行k-means聚类的三维结构相似性聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610250864.8A CN105956605B (zh) 2016-04-21 2016-04-21 基于并行k-means聚类的三维结构相似性聚类方法

Publications (2)

Publication Number Publication Date
CN105956605A true CN105956605A (zh) 2016-09-21
CN105956605B CN105956605B (zh) 2019-04-26

Family

ID=56917893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610250864.8A Expired - Fee Related CN105956605B (zh) 2016-04-21 2016-04-21 基于并行k-means聚类的三维结构相似性聚类方法

Country Status (1)

Country Link
CN (1) CN105956605B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399193A (zh) * 2018-01-29 2018-08-14 华侨大学 一种基于序列结构的程序代码聚类方法
CN110367969A (zh) * 2019-07-05 2019-10-25 复旦大学 一种改进的心电信号快速聚类分析方法
CN110580510A (zh) * 2019-09-12 2019-12-17 深圳力维智联技术有限公司 一种聚类结果评价方法和系统
CN111027585A (zh) * 2019-10-25 2020-04-17 南京大学 一种基于k-means++质心初始化的k-means算法硬件实现方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944607B1 (en) * 2000-10-04 2005-09-13 Hewlett-Packard Development Compnay, L.P. Aggregated clustering method and system
CN103810261A (zh) * 2014-01-26 2014-05-21 西安理工大学 一种基于商空间理论的K-means聚类方法
CN104318563A (zh) * 2014-10-22 2015-01-28 北京航空航天大学 一种基于医学图像的器官骨架提取方法
CN104484345A (zh) * 2014-11-28 2015-04-01 广东工业大学 一种基于K-means聚类的水火弯板3D扫描模块的提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944607B1 (en) * 2000-10-04 2005-09-13 Hewlett-Packard Development Compnay, L.P. Aggregated clustering method and system
CN103810261A (zh) * 2014-01-26 2014-05-21 西安理工大学 一种基于商空间理论的K-means聚类方法
CN104318563A (zh) * 2014-10-22 2015-01-28 北京航空航天大学 一种基于医学图像的器官骨架提取方法
CN104484345A (zh) * 2014-11-28 2015-04-01 广东工业大学 一种基于K-means聚类的水火弯板3D扫描模块的提取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JAIN 等: "Data clustering: 50 years beyond K-means", 《19TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR 2008)》 *
ZHANG, Y 等: "SPICKER: A clustering approach to identify near-native protein folds", 《JOURNAL OF COMPUTATIONAL CHEMISTRY》 *
吴宏杰等: "G蛋白偶联受体结构预测的关键技术研究", 《中国博士学位论文全文数据库基础科学辑》 *
陈荣 等: "一种GPCR跨膜螺旋形变的建模方法", 《计算机科学》 *
黄旭 等: "一种用于蛋白质结构聚类的聚类中心选择算法", 《自动化学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399193A (zh) * 2018-01-29 2018-08-14 华侨大学 一种基于序列结构的程序代码聚类方法
CN108399193B (zh) * 2018-01-29 2022-03-04 华侨大学 一种基于序列结构的程序代码聚类方法
CN110367969A (zh) * 2019-07-05 2019-10-25 复旦大学 一种改进的心电信号快速聚类分析方法
CN110580510A (zh) * 2019-09-12 2019-12-17 深圳力维智联技术有限公司 一种聚类结果评价方法和系统
CN110580510B (zh) * 2019-09-12 2023-07-25 深圳力维智联技术有限公司 一种聚类结果评价方法和系统
CN111027585A (zh) * 2019-10-25 2020-04-17 南京大学 一种基于k-means++质心初始化的k-means算法硬件实现方法及系统

Also Published As

Publication number Publication date
CN105956605B (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
Rasmussen et al. A Bayesian approach for fast and accurate gene tree reconstruction
CN109887540A (zh) 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN105956605A (zh) 基于并行k-means聚类的三维结构相似性聚类方法
Amitai et al. Computation of the mean first-encounter time between the ends of a polymer chain
CN106646645B (zh) 一种重力正演加速方法
CN109885917B (zh) 一种并行分子动力学模拟方法及系统
CN102254020A (zh) 基于特征权重的全局k-均值聚类方法
CN109492796A (zh) 一种城市空间形态自动分区方法与系统
CN102841985B (zh) 一种基于结构域特征的关键蛋白质识别方法
CN102254033A (zh) 基于熵权重的全局k-均值聚类方法
CN109981749A (zh) 一种基于极限梯度提升的云工作流任务执行时间预测方法
Moxey et al. Optimising the performance of the spectral/hp element method with collective linear algebra operations
CN109063418A (zh) 疾病预测分类器的确定方法、装置、设备及可读存储介质
Thornlow et al. Online phylogenetics using parsimony produces slightly better trees and is dramatically more efficient for large SARS-CoV-2 phylogenies than de novo and maximum-likelihood approaches
CN110109811B (zh) 一种面向gpu计算性能问题的溯源方法
Yan et al. Comparison between O (n 2) and O (n) neighbor search algorithm and its influence on superlinear speedup in parallel discrete element method (DEM) for complex-shaped particles
Freulon et al. CytOpT: Optimal transport with domain adaptation for interpreting flow cytometry data
Kofler et al. Kd-tree based n-body simulations with volume-mass heuristic on the GPU
Wenzel et al. Accelerating navigation in the VecGeom geometry modeller
CN105205289B (zh) 一种基于人脑变形仿真的快速连续碰撞检测方法
CN115470675A (zh) 一种重载压力容器裂纹扩展路径的预测方法及系统
Wang et al. A rapid design optimization framework
CN105279320B (zh) 一种生成fdtd网格的方法
Liu et al. Research on product modeling design program based on finite structure method
CN111898807A (zh) 一种基于全基因组选择烟叶产量预测方法及应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215009 CREE Road, Suzhou hi tech Zone, Suzhou, Jiangsu Province, No. 1

Applicant after: Suzhou University of Science and Technology

Address before: 215009 CREE Road, Suzhou hi tech Zone, Suzhou, Jiangsu Province, No. 1

Applicant before: University of Science and Technology of Suzhou

CB02 Change of applicant information
CB03 Change of inventor or designer information

Inventor after: Wu Hongjie

Inventor after: Wu Chuang

Inventor after: Song Longfei

Inventor after: Chen Cheng

Inventor before: Wu Chuang

Inventor before: Wu Hongjie

Inventor before: Song Longfei

Inventor before: Chen Cheng

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190426

Termination date: 20210421

CF01 Termination of patent right due to non-payment of annual fee