CN111128301A - 一种基于模糊聚类的重叠蛋白质复合物识别方法 - Google Patents
一种基于模糊聚类的重叠蛋白质复合物识别方法 Download PDFInfo
- Publication number
- CN111128301A CN111128301A CN201911241247.1A CN201911241247A CN111128301A CN 111128301 A CN111128301 A CN 111128301A CN 201911241247 A CN201911241247 A CN 201911241247A CN 111128301 A CN111128301 A CN 111128301A
- Authority
- CN
- China
- Prior art keywords
- protein
- algorithm
- formula
- matrix
- membership
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
Abstract
本发明提供了一种基于模糊聚类的重叠蛋白质复合物识别方法,主要是根据同一复合物中蛋白质稠密连接的特性以及蛋白质在蛋白质复合物中的模糊性,构造了一个最大化优化问题,并利用本发明中的算法去解决这个最优化问题,使得对于每种蛋白质,可以确定其对于特定复合物的隶属度,隶属关系的模糊性是的迭代计算的,进而能最大限度地提高同一个簇中蛋白质之间相互作用的可能性,能够很好地完成识别任务,具有更好的准确度,实验结果表明该算法具有较高的准确性,能够很好的完成识别任务。
Description
技术领域
本发明属于蛋白质复合物识别方法技术领域,具体涉及一种基于模糊聚类的重叠蛋白质复合物识别方法。
背景技术
蛋白质复合物作为一种稳定的大分子组装体,其在执行细胞稳态、生长和增殖等多种多样的生化活动过程中发挥着重要的作用。由于,蛋白质复合物的识别可以使用我们更好的理解不同细胞系统中的蛋白质机制。因此,近年来从蛋白质相互作用网络(proteininteraction network,PIN)中进行蛋白质复合物识别的问题受到越来越多的关注。为了实现蛋白质复合物的识别人们提出了大量的生物实验方法和计算方法。
实验方法是通过实验测定来进行蛋白质复合物识别,例如免疫共沉淀和双杂交系统。基于实验技术得到的结果可靠,但这种技术存在的主要缺点是识别分析时间长,对于专业知识水平要求较高。因此,计算方法被认为是蛋白质复合物识别的首选方法。一般来说,PIN被定义为一个图,图的顶点表示蛋白质,图中的边用来表示蛋白质之间的相互作用,蛋白质复合物识别问题可表示为一个图聚类问题,通过聚类生成的图形簇被认为是蛋白质复合物。这些图聚类算法是纯粹依赖于PINS的拓扑结构信息去识别遵循某些结构特性的蛋白质复合物的计算方法,其中还有马尔科夫聚类(MCL)算法是将图中紧密相连的区域视为蛋白质复合物,并通过使用扩展操作和膨胀操作模拟流动的膨胀和收缩来识别这些区域。MCODE是另一种流行的图聚类算法,它通过使用节点权重而不是转移矩阵来考虑局部邻居密度来检测 PINS的稠密簇。
上述这些算法在识别蛋白质复合物时是准确的,但是不能确定蛋白质复合物其对于特定复合物的隶属度,不能最大限度地提高同一个簇中蛋白质之间相互作用的可能性,识别性能较差。
发明内容
本发明所要解决的技术问题在于针对上述现有技术的不足,提供一种基于模糊聚类的重叠蛋白质复合物识别方法,以解决上述背景技术中提出的现有的蛋白质复合物识别方法不能确定蛋白质复合物其对于特定复合物的隶属度,不能最大限度地提高同一个簇中蛋白质之间相互作用的可能性,识别性能较差问题。
为解决上述技术问题,本发明采用的技术方案是:一种基于模糊聚类的重叠蛋白质复合物识别方法,包括以下步骤:
S1、输入蛋白质相互作用网络G,分类个数K,常数α,β,θ,隶属度终止容限ε,最大迭代步长lmax,然后输出隶属度矩阵U,
其中G由一个二元组组成,即G={V,E},
V表示蛋白质复合物的识别问题的顶点,V={vi}(1≤i≤m),其中每个vi表示一个蛋白质,同时V将被划分成K个簇,表示为其中每个簇被认为是一种已识别的蛋白质复合物,定义uif表示vi属于 Cf簇的隶属值,即uif表示用来确定vi划分到蛋白质复合物Cf簇的可能性,
E表示图中边的集合,E={eij},其中eij表示蛋白质与蛋白质之间的相互作用关系,如果存在一个eij∈E,则表示蛋白质顶点vi和蛋白质顶点vj在图G中邻接关系,隶属度矩阵被定义为
U=(u1,u2,u3,...,um)
其中ui(1≤i≤m)表示隶属度分布向量;
S2、将G用一个邻接矩阵D来进行表示,D=[dij](1≤i,j≤m),其中每个元素dij的取值可以用如下公式表示:
S3、用随机产生的非负值初始化U,并使用如下公式对U进行规范化处理:
S4、初始化l=1,表示第1步迭代,同时利用如下公式更新λ(l+1):
其中S(l+1)由公式
根据的KKT条件,ΩοU=0且Ω≥0,ωif可被定义为:
且假设U中的所有其它元素的uif都是t已知,在经过一些代数操作之后,uif的解为:
ε(l+1)=|L(U(l+1),λ(l+1),Ω(l+1))-L(U(l),λ(l),Ω(l))|
S5、当ε(l+1)≤ε或者迭代变量值l>lmax时迭代停止,否则转到 S4中再去去重复执行,最终返回隶属度矩阵U(l),完成算法的识别过程。
优选的,在S1中,定义的目标函数为:
其中s.t.U1=1,U≥0
α,β,和θ是取值在[0,1]之间的常数。
S=[sif]是一个长度为m×K的矩阵,矩阵的每个元素可以由公式
表示为:
优选的,为了验证所识别的蛋白质复合物的稠密结构,我们将对目标函数的分析限定在第一项中与D有关的部分,并使用微量表达式进行重写公式为:
优选的,为了度量本文算法所识别的蛋白质复合物与标准集中蛋白质复合物之间的匹配程度,采用匹配率进行度量,匹配率度量表示为MR-measure,定义MR表示为:
其中,bi是标准数据集中的第i个蛋白质复合物,是c∈C是识别出的蛋白质复合物,
n(c,bi)是c和bi共有的蛋白质的数量,
n(c)表示识别出的蛋白质复合c中蛋白质的数量,
n(bi)表示标准数据集中蛋白质复合物bi中蛋白质的数量。
本发明与现有技术相比具有以下优点:
本发明中的蛋白质复合物识别的模糊聚类算法主要是根据同一复合物中蛋白质稠密连接的特性以及蛋白质在蛋白质复合物中的模糊性,构造了一个最大化优化问题,并利用本发明中的算法去解决这个最优化问题,使得对于每种蛋白质,可以确定其对于特定复合物的隶属度,隶属关系的模糊性是的迭代计算的,进而能最大限度地提高同一个簇中蛋白质之间相互作用的可能性,能够很好地完成识别任务,具有更好的准确度。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,本发明提供一种技术方案:一种基于模糊聚类的重叠蛋白质复合物识别方法,包括以下步骤:
S1、输入蛋白质相互作用网络G,分类个数K,常数α,β,θ,隶属度终止容限ε,最大迭代步长lmax,然后输出隶属度矩阵U,
其中G由一个二元组组成,即G={V,E},
V表示蛋白质复合物的识别问题的顶点,V={vi}(1≤i≤m),其中每个vi表示一个蛋白质,同时V将被划分成K个簇,表示为其中每个簇被认为是一种已识别的蛋白质复合物,定义uif表示vi属于 Cf簇的隶属值,即uif表示用来确定vi划分到蛋白质复合物Cf簇的可能性,
E表示图中边的集合,E={eij},其中eij表示蛋白质与蛋白质之间的相互作用关系,如果存在一个eij∈E,则表示蛋白质顶点vi和蛋白质顶点vj在图G中邻接关系,隶属度矩阵被定义为
U=(u1,u2,u3,...,um)
其中ui(1≤i≤m)表示隶属度分布向量;
S2、将G用一个邻接矩阵D来进行表示,D=[dij](1≤i,j≤m),其中每个元素dij的取值可以用如下公式表示:
S3、用随机产生的非负值初始化U,并使用如下公式对U进行规范化处理:
S4、初始化l=1,表示第1步迭代,同时利用如下公式更新λ(l+1):
其中S(l+1)由公式
根据的KKT条件,ΩοU=0且Ω≥0,ωif可被定义为:
且假设U中的所有其它元素的uif都是t已知,在经过一些代数操作之后,uif的解为:
ε(l+1)=|L(U(l+1),λ(l+1),Ω(l+1))-L(U(l),λ(l),Ω(l))|
S5、当ε(l+1)≤ε或者迭代变量值l>lmax时迭代停止,否则转到 S4中再去去重复执行,最终返回隶属度矩阵U(l),完成算法的识别过程。
在S1中,定义的目标函数为:
其中s.t.U1=1,U≥0
α,β,和θ是取值在[0,1]之间的常数。
S=[sif]是一个长度为m×K的矩阵,矩阵的每个元素可以由公式
表示为:
同时为了验证所识别的蛋白质复合物的稠密结构,我们将对目标函数的分析限定在第一项中与D有关的部分,并使用微量表达式进行重写公式为:
为了度量本文算法所识别的蛋白质复合物与标准集中蛋白质复合物之间的匹配程度,采用匹配率进行度量,匹配率度量表示为 MR-measure,定义MR表示为:
其中,bi是标准数据集中的第i个蛋白质复合物,是c∈C是识别出的蛋白质复合物,
n(c,bi)是c和bi共有的蛋白质的数量,
n(c)表示识别出的蛋白质复合c中蛋白质的数量,
n(bi)表示标准数据集中蛋白质复合物bi中蛋白质的数量。
实验结果及分析,使用Gavin 2006和Collins 2007两组酵母蛋白质相互作用网络数据进行性能评价,其中Gavin 2006和Collins 2007 数据都是从酿酒酵母中采集的。Gavin 2006和Collins 2007可以从 BioGRID数据库进行下载,在使用这两个数据集之前,我们进行了数据预处理来清洗PIN中的数据。我们从PIN中删除了所有的自相互作用和重复相互作用。执行了去除操作后Gavin 2006包含1430个蛋白质,相互作用数目为6531;Collins 2007包含了1620个蛋白质,相互作用数目为9064,为了对算法进行评估,对截至2013年3月11 日前的MIPS/CYGD和CYC2008数据库中已知的蛋白质复合物的鉴定结果进行比较,MIPS/CYGD中的复合物属于酿酒酵母,已知的蛋白质复合物有255种。此外,还将CYC2008中已知的蛋白复合物作为标准数据集中的一部分,CYC2008中已知的蛋白质复合物有408 个,结合MIPS/CYGD与CYC2008最终得到557个已知的酿酒酵母蛋白质复合物;
IOPC-FC算法涉及到的参数值是通过找到使F-Measure得到最佳平均值的参数集进行设置,IOPC-FC算法在实现识别识别蛋白质复合物过程中,关键的问题是确定蛋白质复合物的数量,即值,但是目前并没有关于每个PIN的复合物数量的先验知识可用,局限性较大。
而本申请中提出算法可以通过去除冗余复合体来自适应地确定复合体的数量,可将K设置为更大的值。在我们的实验中设置K=500,常数ɑ、β、θ的值从集合{1,0.1,0.01,0.01,0.001}中选择,通过多次实验发现,迭代步长设置为20,隶属度终止容限ε设置为0.01,算法性能表现最佳。
为了说明本文算法的有效性,我们使用IOPC-FC算法与MCL、 MCODE、Coach、CMC、CFinder、IPCA、DPClus和ClusterONE七种算法进行比较,下表为8种算法在Gavin数据集上的比较结果:
Algorithms | IOPC-FC | MCL | MCODE | COACH | CMC | CFinder | IPCA | ClusterONE |
Number | 494 | 189 | 69 | 328 | 317 | 274 | 455 | 243 |
Precision | 0.577 | 0.510 | 0.667 | 0.517 | 0.346 | 0.728 | 0.461 | 0.390 |
Recall | 0.392 | 0.290 | 0.145 | 0.323 | 0.312 | 0.313 | 0.219 | 0.347 |
F-Score | 0.466 | 0.369 | 0.239 | 0.397 | 0.346 | 0.438 | 0.270 | 0.367 |
表1
下表为8种算法在collins数据集上的比较结果:
Algorithms | IOPC-FC | MCL | MCODE | COACH | CMC | CFinder | IPCA | ClusterONE |
Number | 488 | 264 | 117 | 246 | 176 | 312 | 312 | 196 |
Precision | 0.560 | 0.609 | 0.795 | 0.517 | 0.648 | 0.590 | 0.511 | 0.627 |
Recall | 0.412 | 0.508 | 0.291 | 0.352 | 0.335 | 0.346 | 0.221 | 0.517 |
F-Score | 0.475 | 0.554 | 0.426 | 0.419 | 0.442 | 0.436 | 0.309 | 0.567 |
表2
从上面两个表中可以清楚的看出,IOPC-FC算法与基于密度结构的蛋白质复合物识别算法进行比较,IOPC-FC具有更好的性能,特别是IOPC-FC相对于MCODE算法作用在Gavin 2006和Collins 2007数据集上进行蛋白质复合物识别准确度分别提高了94%和12%,作用于Gavin 2006 数据集上,IOPC-FC优于MCL,在F-Measure值上获得26%的相对增益。然而,在Collins2007数据集上,IOPC-FC算法的F-Measure值不如MCL 算法的F-Measure值,从F-Measure值的角度看,在8个算法中MCL获得了最佳的性能。在Collins2007数据集上MCL算法优于IOPC-FC算法的部分原因在于MCL算法识别蛋白质复合物数量相比于IOPC-FC算法要少很多,在第一个表中我们也能够观察到在Gavin 2006数据集上,本文提出算法在8种算法中获得了最佳的F-Measure值,因而模糊聚类的应用使得本文提出的算法能够充分利用PIN的结构信息,从而获得更加可靠的聚类效果。
同时IOPC-FC算法在与基于最大团的思想的CMC和CFinder算法相比较时,IOPC-FC算法性能表现不比这两种方法差,在Gavin 2006数据集上IOPC-FC算法性能比CMC和CFinder分别提高了35%和6%,在 Collins2007数据集上IOPC-FC算法性能比CMC和CFinder分别提高了 12%和9%。
IOPC-FC算法算法在与基于核心附件结构的方法COACH相比,我们再次观察到IOPC-FC算法具有较强的性能。从表1和表2中可以看出,本文算法在Gavin 2006和Collins2007的f-score值分别获得了17%和13%的相对增益。
此外,IOPC-FC算法在F-Measure值方面表现与基于距离预测的IPCA 算法相比也有很大差距。在Collins2007数据集上,IOPC-FC算法在识别蛋白质复合物的准确度方面相对提高了54%。在与基于重叠邻居扩张思想的ClusterONE算法相比,在Gavin2006数据集上IOPC-FC算法的性能相对提高了27%。
通过对上述实验结果分析,我们发现本文算法在大多数情况下都能产生最佳性能,综合平均F-Measure值,我们的算法优于MCL算法2%, MCODE算法42%,COACH算法15%,CMC算法21%,CFinder算法 8%,IPCA算法43%,ClusterONE算法1%。因此基于模糊聚类的算法可以更容易、更准确地识别蛋白质复合物。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于模糊聚类的重叠蛋白质复合物识别方法,其特征在于,包括以下步骤:
S1、输入蛋白质相互作用网络G,分类个数K,常数α,β,θ,隶属度终止容限ε,最大迭代步长lmax,然后输出隶属度矩阵U,
其中G由一个二元组组成,即G={V,E},
V表示蛋白质复合物的识别问题的顶点,V={vi}(1≤i≤m),其中每个vi表示一个蛋白质,同时V将被划分成K个簇,表示为其中每个簇被认为是一种已识别的蛋白质复合物,定义uif表示vi属于Cf簇的隶属值,即uif表示用来确定vi划分到蛋白质复合物Cf簇的可能性,
E表示图中边的集合,E={eij},其中eij表示蛋白质与蛋白质之间的相互作用关系,如果存在一个eij∈E,则表示蛋白质顶点vi和蛋白质顶点vj在图G中邻接关系,隶属度矩阵被定义为
U=(u1,u2,u3,...,um)
其中ui(1≤i≤m)表示隶属度分布向量;
S2、将G用一个邻接矩阵D来进行表示,D=[dij](1≤i,j≤m),其中每个元素dij的取值可以用如下公式表示:
S3、用随机产生的非负值初始化U,并使用如下公式对U进行规范化处理:
S4、初始化l=1,表示第1步迭代,同时利用如下公式更新λ(l+1):
其中S(l+1)由公式
且假设U中的所有其它元素的uif都是t已知,在经过一些代数操作之后,uif的解为:
ε(l+1)=|L(U(l+1),λ(l+1),Ω(l+1))-L(U(l),λ(l),Ω(l)|
S5、当ε(l+1)≤ε或者迭代变量值l>lmax时迭代停止,否则转到S4中再去去重复执行,最终返回隶属度矩阵U(l),完成算法的识别过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241247.1A CN111128301A (zh) | 2019-12-06 | 2019-12-06 | 一种基于模糊聚类的重叠蛋白质复合物识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241247.1A CN111128301A (zh) | 2019-12-06 | 2019-12-06 | 一种基于模糊聚类的重叠蛋白质复合物识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111128301A true CN111128301A (zh) | 2020-05-08 |
Family
ID=70496286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911241247.1A Pending CN111128301A (zh) | 2019-12-06 | 2019-12-06 | 一种基于模糊聚类的重叠蛋白质复合物识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128301A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084424A (zh) * | 2020-09-10 | 2020-12-15 | 深圳市万佳安人工智能数据技术有限公司 | 一种基于属性图信息的社交网络社团发现方法和系统 |
CN113470739A (zh) * | 2021-07-03 | 2021-10-01 | 中国科学院新疆理化技术研究所 | 一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统 |
CN113470738A (zh) * | 2021-07-03 | 2021-10-01 | 中国科学院新疆理化技术研究所 | 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 |
CN117095754A (zh) * | 2023-10-19 | 2023-11-21 | 江苏正大天创生物工程有限公司 | 一种利用机器学习进行蛋白质分类的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509509A (zh) * | 2018-09-29 | 2019-03-22 | 江西理工大学 | 基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法 |
CN109545275A (zh) * | 2018-09-29 | 2019-03-29 | 江西理工大学 | 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法 |
CN110163243A (zh) * | 2019-04-04 | 2019-08-23 | 浙江工业大学 | 一种基于接触图与模糊c均值聚类的蛋白质结构域划分方法 |
-
2019
- 2019-12-06 CN CN201911241247.1A patent/CN111128301A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509509A (zh) * | 2018-09-29 | 2019-03-22 | 江西理工大学 | 基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法 |
CN109545275A (zh) * | 2018-09-29 | 2019-03-29 | 江西理工大学 | 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法 |
CN110163243A (zh) * | 2019-04-04 | 2019-08-23 | 浙江工业大学 | 一种基于接触图与模糊c均值聚类的蛋白质结构域划分方法 |
Non-Patent Citations (1)
Title |
---|
朱智幸: "基于模糊聚类的基因共表达网络分析研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084424A (zh) * | 2020-09-10 | 2020-12-15 | 深圳市万佳安人工智能数据技术有限公司 | 一种基于属性图信息的社交网络社团发现方法和系统 |
CN113470739A (zh) * | 2021-07-03 | 2021-10-01 | 中国科学院新疆理化技术研究所 | 一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统 |
CN113470738A (zh) * | 2021-07-03 | 2021-10-01 | 中国科学院新疆理化技术研究所 | 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 |
CN113470738B (zh) * | 2021-07-03 | 2023-07-14 | 中国科学院新疆理化技术研究所 | 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 |
CN117095754A (zh) * | 2023-10-19 | 2023-11-21 | 江苏正大天创生物工程有限公司 | 一种利用机器学习进行蛋白质分类的方法 |
CN117095754B (zh) * | 2023-10-19 | 2023-12-29 | 江苏正大天创生物工程有限公司 | 一种利用机器学习进行蛋白质分类的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128301A (zh) | 一种基于模糊聚类的重叠蛋白质复合物识别方法 | |
Kim et al. | Reuse of imputed data in microarray analysis increases imputation efficiency | |
Mandal et al. | An improved minimum redundancy maximum relevance approach for feature selection in gene expression data | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
Hunter et al. | GEST: a gene expression search tool based on a novel Bayesian similarity metric | |
CN112750502B (zh) | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 | |
Qian et al. | Fast graph-based relaxed clustering for large data sets using minimal enclosing ball | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN107885971B (zh) | 采用改进花授粉算法识别关键蛋白质的方法 | |
de Arruda et al. | A complex networks approach for data clustering | |
Oti et al. | Comprehensive review of K-Means clustering algorithms | |
CN112735536A (zh) | 一种基于子空间随机化单细胞集成聚类方法 | |
CN116741397A (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
Nayini et al. | A novel threshold-based clustering method to solve K-means weaknesses | |
CN105590039B (zh) | 一种基于bso优化的蛋白质复合物识别方法 | |
Pu et al. | Screen efficiency comparisons of decision tree and neural network algorithms in machine learning assisted drug design | |
CN116091771A (zh) | 一种复杂机匣腔体点云分割方法、装置及设备 | |
Shu et al. | Performance assessment of kernel density clustering for gene expression profile data | |
CN113066528B (zh) | 基于主动半监督图神经网络的蛋白质分类方法 | |
CN108921853B (zh) | 基于超像素和免疫稀疏谱聚类的图像分割方法 | |
CN112270950B (zh) | 一种基于网络增强和图正则的融合网络药物靶标关系预测方法 | |
CN111584010B (zh) | 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法 | |
CN109033746B (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
CN115168326A (zh) | Hadoop大数据平台分布式能源数据清洗方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200508 |