CN106960134A - 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法 - Google Patents

一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法 Download PDF

Info

Publication number
CN106960134A
CN106960134A CN201710177641.8A CN201710177641A CN106960134A CN 106960134 A CN106960134 A CN 106960134A CN 201710177641 A CN201710177641 A CN 201710177641A CN 106960134 A CN106960134 A CN 106960134A
Authority
CN
China
Prior art keywords
amino acid
fcm algorithms
interactive network
xylanase
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710177641.8A
Other languages
English (en)
Inventor
丁彦蕊
饶榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201710177641.8A priority Critical patent/CN106960134A/zh
Publication of CN106960134A publication Critical patent/CN106960134A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Abstract

本发明公开了一种适用于木聚糖酶氨基酸相互作用网络聚类的S‑FCM算法,属于计算机应用技术领域。本发明方法针对FCM算法的参数依赖性强和对初始聚类中心敏感的缺陷作出改进。S‑FCM算法首先引入了基于密度的数据预处理方法,使其可以根据输入的木聚糖酶氨基酸相互作用网络自身的密度特性来获取初始聚类中心以及分类数目,保证聚类结果的可靠性。其次,考虑氨基酸的序列特征对聚类结果的影响,在距离特征的基础上加入了氨基酸的序列特征,这提高了聚类的精确度。本发明方法在FCM算法的基础上,针对该算法的一些缺陷做出改进,并对木聚糖酶氨基酸相互作用网络进行聚类,为从社团的角度研究蛋白质的稳定性提供了一个新的途径。

Description

一种适用于木聚糖酶氨基酸相互作用网络聚类的S-FCM算法
技术领域
本发明公开了一种适用于木聚糖酶氨基酸相互作用网络聚类的S-FCM算法,属于计算机应用技术领域。具体的说就是在模糊C均值聚类算法(FCM算法)的基础上,引入了基于密度的数据预处理方法,同时在距离特征的基础上加入了氨基酸的序列特征,提高了聚类结果的稳定性和精确度,该方法为从社团的角度研究蛋白质热稳定性提供了一个新的途径。
背景技术
木聚糖酶广泛分布于各种生物体内,其能够将木聚糖催化水解为五碳糖。现在耐热木聚糖酶因能在高温下保持活性而广泛应用于工业生产中:纸张漂白,农业饲料,生物转化等。研究耐热木聚糖酶热稳定性的作用机理必将产生显著的社会效益和经济效益。对蛋白质热稳定性的影响不只是单一氨基酸作用,而是多个氨基酸通过相互作用形成社团,在时间和空间上协调一致,来维持蛋白质热稳定性。将蛋白质编码成氨基酸相互作用网络,借助复杂网络社团结构分析方法,揭示氨基酸的内在联系,对于理解蛋白质的功能以及分析网络中氨基酸之间的行为具有重要的理论意义。因此,用聚类算法将蛋白质中氨基酸相互作用网络划分成簇,从社团的角度研究木聚糖酶的热稳定性是一条有效的途径。
Rodriguez A(《Clustering by fast search and find of density peaks》Science,2014,344(6191):1492-1496)等提出了基于密度的方法,在网络中寻找高密段连通的子网络。作为寻找完全连通子图的最大团算法,它能从氨基酸相互作用网络中检测出那些高度连接的蛋白质,但是它不能对存在大量稀疏节点的网络进行分类。Mayer B(《Influence of solvation on the helix-forming tendency of nonpolar aminoacids》,Journal of Molecular Structure Theochem,2000,532(1):213-226)提出的模糊C均值聚类方法属于划分的方法,该方法研究网络中所有孤立点的每个部分。该算法要找到一个最佳的划分使得所用的类的功能函数值之和最小。这个方法的最大的缺点就是要事先知道要划分的目标类的确定个数以及初始聚类中心。Bhattacharjee N(《StructuralPatterns in Helices and Sheets in Globular Proteins》,Protein&Peptide Letters,2009,16(8):953-960)等发现了蛋白质中氨基酸社团与二级结构以及结构域之间有很好的对应关系,为分析社团对蛋白质热稳定性的影响提供了理论基础。
本发明提出的S-FCM算法是在引入了基于密度的数据预处理方法后,在FCM算法的距离特征的基础上加入了氨基酸的序列特征,从而提高了聚类结果的稳定性和精确度,已经成功应用在木聚糖酶氨基酸相互作用网络的聚类中。文献及专利中未见有人将基于密度的数据预处理方法引入FCM算法中,也未见在FCM算法中引入氨基酸序列特征作为分类标准。
发明内容
有鉴于此,本发明的目的是在FCM算法的基础上,引入基于密度的数据预处理方法,获得初始聚类中心以及分类数目,同时在聚类标准中加入氨基酸的序列特征,提高聚类结果的稳定性和精确度。
本发明的技术方案:S-FCM算法及在木聚糖酶氨基酸相互作用网络中的应用,采用了下列步骤:
(1)基于密度的数据预处理方法选定初始聚类中心以及分类数目
使用基于密度的聚类算法思想,确定氨基酸相互作用网络中每个氨基酸节点的局部密度以及距离。找出的聚类中心被具有较低局部密度的邻居点包围,且与更高密度的其他点有相对较大的距离。通过该算法对数据进行预处理,可以获得反映数据空间密度分布特征的代表点。同时可以根据聚类中心的数目确定分类数目。
(2)加入氨基酸序列特征作为分类标准
在蛋白质中,氨基酸形成二级结构具有倾向性。序列上相邻的氨基酸,可能在同一个二级结构中,也可能在不同的二级结构中,氨基酸形成二级结构的倾向性受到周围氨基酸的影响。所以在距离特征的基础上加入序列特征后进行模糊聚类。
(3)构建目标函数方程
基于距离特征与序列特征建立目标函数方程,根据已经确定好的初始聚类中心以及分类数目计算目标函数的极小值。得到隶属度矩阵,确定聚类结果。
所述的适用于氨基酸相互作用网络聚类的S-FCM算法,其特征在于用基于密度的数据预处理方法确定初始聚类中心以及分类数目。然后将氨基酸序列特征加入到模糊C均值聚类算法中,使聚类结果的可靠性增加,并同时提高了聚类结果精确度。
基于密度的数据预处理思想,就是找到那些局部密度较大,同时聚类中心之间的距离也较大的节点即聚类中心。聚类中心被具有较低局部密度的邻居点包围,且与更高密度的其他点有相对较大的距离,这些节点可以反映出数据空间密度分布特征。
FCM算法是用隶属度确定每个数据点属于某个类的程度的一种聚类算法。它的思想是:被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。这是对隶属度函数求极小值的问题。在数据挖掘,图像处理,蛋白质相互作用网络聚类上都有广泛的应用。
针对FCM算法的缺点,引入了基于密度的数据预处理机制,同时加入了氨基酸之间的序列特征,对木聚糖酶氨基酸相互作用网络进行聚类分析。
待聚类的数据集表示网络中的氨基酸节点,对于S中的任何数据点,可以为其定义两个量。公式如下:
数据点i的局部密度ρi定义为:
dij代表节点的欧几里得距离,dc表示截断距离,dc的选取在算法描述中详细介绍。
数据点i的距离δi为:
其中,数据集当Xi具有较大的局部密度时,δi表示S中Xi与距离最大的数据点之间的距离;否则,δi表示在所有局部密度大于Xi的数据点中,与Xi距离最小的那些数据点之间的距离。
预处理算法描述如下:
1.从数据集S中获取节点的位置信息,计算出距离矩阵dij
2.对距离矩阵进行升序排列,选取前1%个距离设定为截断距离dc
3.根据公式2,3计算出每个节点的ρi和δi
基于步骤3中的结果,把局部密度和距离都较大的“离群点”作为S-FCM算法的初始聚类中心,初始聚类中心的数目作为分类数目。
确定数据集S和分类数目C,以及初始聚类中心后,FCM算法是下列目标函数求极小值问题,函数如下:
公式中(3)j为待聚类节点数量;i为分类数目;uij为第j个节点属于第i个聚类中心的隶属度;Ci为第i个社团的聚类中心;d为节点间的欧几里得距离。显然,FCM算法没有考虑到样本不同属性对分类贡献的差异,在蛋白质中,氨基酸形成二级结构是有倾向性的,序列上相邻的氨基酸可能在同一个二级结构中,也可能在不同的二级结构中,氨基酸形成二级结构的倾向性受到周围氨基酸的影响。所以,本发明在考虑距离的基础上,加入了氨基酸的序列特征,将序列特征引入目标函数。那么,对氨基酸相互作用网络聚类的问题可以表示为公式(4)目标函数求极小值的问题。
本发明中模糊参数m取2.其中sq表示节点间的序列特征,定义参数α>0是定义序列特征所占的权重,当α增加,序列特征的影响大于距离特征。
算法评价分为内部评价和外部评价,内部评价是模块度,外部评价是二级结构准确率。
模块度:
m表示在整个网络中边的数量;Avw表示网络中节点形成的实际边数,表示随机网络下边数期望值。δvw表示节点是否在同一个社区,是则等于1,否则等于0.
二级结构准确率:
w表示蛋白质中二级结构的个数,Tij表示在第i个社团中出现在第j个二级结构中氨基酸的数目,Tj表示第j个二级结构中氨基酸总数目。整个木聚糖酶氨基酸相互作用网络的二级结构准确率Acc是社团二级结构准确率的平均值。
算法如下:
1.数据集预处理,通过预处理算法处理待分类的木聚糖酶氨基酸相互作用网络,依据氨基酸的实际分布情况,获得S-FCM算法所需要的初始聚类中心以及分类数目。
2.根据算法新的目标函数公式4计算目标函数的值,同时计算隶属度矩阵U,并确定新的聚类中心。
3.多次迭代,重复步骤2,用一个矩阵范数比较两次迭代之间隶属度矩阵,如果||U(k+1)-Uk||<=ε,则停止迭代。得到最终的聚类中心和节点对于各个社团的隶属度值。
4..利用内部评价标准和外部评价标准对聚类结果进行评价。
本发明的有益效果:本发明公开了一种适用于木聚糖酶氨基酸相互作用网络聚类的S-FCM算法。本发明方法是针对FCM算法的参数依赖性强,并对初始聚类中心敏感的缺陷作出改进。S-FCM算法首先引入了基于密度的数据预处理方法,使其可以根据输入的木聚糖酶氨基酸相互作用网络自身的密度特性来获取初始聚类中以及分类数目,保证聚类结果的可靠性。其次,考虑氨基酸序列特征对聚类结果的影响,从而在距离特征的基础上加入了氨基酸序列特征,提高了聚类的准确度。本发明方法在FCM算法的基础上,针对该算法的一些缺陷做出改进,并对木聚糖酶氨基酸相互作用网络进行聚类,为从社团的角度研究蛋白质的稳定性提供了一个新的途径。
具体实施方式
(1)本文选择来自Streptomyces lividans(S.lividans,简写为S.liv)的常温木聚糖酶分子动力学模拟的构象数据作为算法输入。数据集中包括了在300K温度下的20个常温木聚糖酶S.liv的构象信息。二级结构的信息是从PDB数据库中得到的(http://www.rcsb.org/pdb/home/home.do)。
(2)分别用FCM算法和S-FCM算法对20个s.liv构象数据集进行聚类,比较两种算法的模块度和二级结构准确率,如附图说明中的图1,图2所示:
附图说明:
图1:FCM算法和S-FCM算法对常温木聚糖酶20个构象聚类后的模块度Q的比较结果;
图2:FCM算法和S-FCM算法对常温木聚糖酶20个构象聚类后的二级结构准确率Acc的比较
用本发明提出的预处理算法可以使聚类结果稳定可靠。再由图1和图2可见,考虑到氨基酸序列特征对分类结果的影响,加入序列特征,使S-FCM算法比FCM算法的聚类准确度得到提高。

Claims (2)

1.一种适用于木聚糖酶氨基酸相互作用网络聚类的S-FCM算法,算法流程如下:
(1)基于密度的数据预处理方法选定初始聚类中心以及分类数目
计算并根据木聚糖酶氨基酸相互作用网络中每个氨基酸节点的局部密度以及与其它氨基酸节点的距离,确定被具有低局部密度的邻居点包围,且与高密度的其他点有相对较大的距离的类簇中心,类簇中心的个数即为分类数目。通过对数据进行预处理,获得反映数据空间密度分布特征的代表点。所计算的氨基酸节点之间的距离作为S-FCM算法的距离特征向量。
(2)加入氨基酸序列特征作为新的分类标准
计算木聚糖酶氨基酸序列中每个氨基酸与其它氨基酸相互影响的概率,作为算法的序列特征向量。
(3)构建目标函数方程
基于距离特征与序列特征建立目标函数方程,根据已经确定好的初始聚类中心以及分类数目计算目标函数的极小值。得到隶属度矩阵,确定聚类结果。
2.根据权利1所述的适用于木聚糖酶氨基酸相互作用网络聚类的S-FCM算法,其特征在于基于密度数据进行预处理,确定初始聚类中心以及分类数目。然后将氨基酸序列中每个氨基酸与其他氨基酸的相互影响与距离特征一起作为FCM算法的特征向量,提高了聚类结果的精确度。
CN201710177641.8A 2017-03-23 2017-03-23 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法 Pending CN106960134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710177641.8A CN106960134A (zh) 2017-03-23 2017-03-23 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710177641.8A CN106960134A (zh) 2017-03-23 2017-03-23 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法

Publications (1)

Publication Number Publication Date
CN106960134A true CN106960134A (zh) 2017-07-18

Family

ID=59471153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710177641.8A Pending CN106960134A (zh) 2017-03-23 2017-03-23 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法

Country Status (1)

Country Link
CN (1) CN106960134A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679616A (zh) * 2017-10-20 2018-02-09 江南大学 一种引入序列信息的残基相互作用网络比对算法si‑magna
CN108846255A (zh) * 2018-06-19 2018-11-20 江南大学 一种分析木聚糖酶热稳定性影响因素的方法
CN109545275A (zh) * 2018-09-29 2019-03-29 江西理工大学 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法
CN117095754A (zh) * 2023-10-19 2023-11-21 江苏正大天创生物工程有限公司 一种利用机器学习进行蛋白质分类的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630376A (zh) * 2009-08-12 2010-01-20 江苏大学 多模型神经网络的生物发酵过程软测量建模方法及软仪表
CN104914190A (zh) * 2015-06-23 2015-09-16 福建省农业科学院农业工程技术研究所 一种茶叶种类鉴别和21种特征成分含量测定的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630376A (zh) * 2009-08-12 2010-01-20 江苏大学 多模型神经网络的生物发酵过程软测量建模方法及软仪表
CN104914190A (zh) * 2015-06-23 2015-09-16 福建省农业科学院农业工程技术研究所 一种茶叶种类鉴别和21种特征成分含量测定的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEX RODRIGUEZ等: "Clustering by fast search and find of density peaks", 《SCIENCE》 *
刘昊: "基于聚类算法和相互作用网络的蛋白质功能预测研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
袁方等: "初始聚类中心优化的 k-means 算法", 《计算机工程》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679616A (zh) * 2017-10-20 2018-02-09 江南大学 一种引入序列信息的残基相互作用网络比对算法si‑magna
CN107679616B (zh) * 2017-10-20 2020-12-04 江南大学 一种引入序列信息的残基相互作用网络比对方法si-magna
CN108846255A (zh) * 2018-06-19 2018-11-20 江南大学 一种分析木聚糖酶热稳定性影响因素的方法
CN109545275A (zh) * 2018-09-29 2019-03-29 江西理工大学 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法
CN109545275B (zh) * 2018-09-29 2020-11-10 江西理工大学 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法
CN117095754A (zh) * 2023-10-19 2023-11-21 江苏正大天创生物工程有限公司 一种利用机器学习进行蛋白质分类的方法
CN117095754B (zh) * 2023-10-19 2023-12-29 江苏正大天创生物工程有限公司 一种利用机器学习进行蛋白质分类的方法

Similar Documents

Publication Publication Date Title
Wang et al. Identification of important nodes in directed biological networks: A network motif approach
CN106960134A (zh) 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法
Pandey et al. Data clustering using hybrid improved cuckoo search method
Li et al. A RF-PSO based hybrid feature selection model in intrusion detection system
CN106845536B (zh) 一种基于图像缩放的并行聚类方法
Zhou et al. A robust clustering algorithm based on the identification of core points and KNN kernel density estimation
Hosseini Rad et al. A new hybridization of DBSCAN and fuzzy earthworm optimization algorithm for data cube clustering
CN108322428A (zh) 一种异常访问检测方法及设备
Martínez-Ballesteros et al. Improving a multi-objective evolutionary algorithm to discover quantitative association rules
Cheu et al. On the two-level hybrid clustering algorithm
Gao et al. Icfs: An improved fast search and find of density peaks clustering algorithm
Bakhshi et al. Review and comparison between clustering algorithms with duplicate entities detection purpose
CN108376302A (zh) 基于ap聚类的elm复杂石化行业生产能力的预测模型
Singh et al. A neighborhood search based cat swarm optimization algorithm for clustering problems
Liu et al. Fast clustering with flexible balance constraints
Rahman et al. Seed-Detective: A Novel Clustering Technique Using High Quality Seed for K-Means on Categorical and Numerical Attributes.
Lin et al. A hybrid EA for high-dimensional subspace clustering problem
Diao et al. Clustering by detecting density peaks and assigning points by similarity-first search based on weighted K-nearest neighbors graph
CN110490234A (zh) 基于聚类分类联合机制的分类器的构建方法以及分类方法
CN110797080A (zh) 基于跨物种迁移学习预测合成致死基因
CN107423319B (zh) 一种垃圾网页检测方法
Abd-el Fattah et al. A TOPSIS based method for gene selection for cancer classification
Wang et al. Feature selection methods in the framework of mrmr
CN109886332A (zh) 基于对称邻居关系的改进dpc聚类算法及系统
Li et al. Overlap Community Detection Based on Node Convergence Degree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170718