CN107194207A - 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法 - Google Patents

基于粒度支持向量机集成的蛋白质配体绑定位点预测方法 Download PDF

Info

Publication number
CN107194207A
CN107194207A CN201710494361.XA CN201710494361A CN107194207A CN 107194207 A CN107194207 A CN 107194207A CN 201710494361 A CN201710494361 A CN 201710494361A CN 107194207 A CN107194207 A CN 107194207A
Authority
CN
China
Prior art keywords
mtd
mrow
msub
svm
mtr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710494361.XA
Other languages
English (en)
Inventor
於东军
朱亨�
朱一亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201710494361.XA priority Critical patent/CN107194207A/zh
Publication of CN107194207A publication Critical patent/CN107194207A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,包括:步骤1、根据蛋白质序列的进化信息和二级结构进行特征提取,将序列中的氨基酸残基以特征向量形式表示,以残基(位点)为单位构建训练样本集;步骤2、利用粒度计算的思想对训练样本集进行采样,生成多个子训练样本集;步骤3、分别在每个子训练样本集上训练支持向量机(SVM)模型,多个SVM组成一个SVM的集合;步骤4、采用自适应提升算法(AdaBoost)对SVM集合中的多个模型进行集成,得到集成的SVM模型;步骤5、对于一条给定的查询序列,使用同样的特征提取方法生成序列中每个残基对应的特征向量。对于每个残基样本,用集成的SVM模型进行预测,生成原始预测结果,再利用一种简单的后处理技术对原始的结果进行处理,生成最终的预测结果。本发明方法预测精度高,泛化能力强。

Description

基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
技术领域
本发明涉及生物信息学蛋白质—配体相互作用领域,具体地说,是一种基于粒度支持向量机集成的蛋白质配体绑定位点预测方法。
背景技术
在细胞的生命活动中,蛋白质经常需要与其他分子(配体)绑定来共同参与各种生物过程。准确地识别蛋白质配体绑定位点有助于理解蛋白质的功能和设计新药物。然而,传统的生化识别方法耗时长、代价高,已经无法满足相关研究的迫切需求。因此,近几十年来,该领域的研究者提出了大量高效的计算方法来识别蛋白质配体绑定位点,其中包括:基于模板的方法、基于机器学习的方法等。
基于机器学习的方法是近些年来最常用的蛋白质配体绑定位点预测方法之一。大量的实验证明,基于机器学习的方法速度快、准确率高。如:(1)N.Shu,T.Zhou,and S.“Prediction of zinc-binding sites in proteins from sequence,”Bioinformatics,vol.24,no.6,pp.775-782,2008;(2)K.Chen,M.J.Mizianty,andL.Kurgan,“Prediction and analysis of nucleotide-binding residues usingsequence and sequence-derived structural descriptors,”Bioinformatics,vol.28,no.3,pp.331-341,2012;(3)D.-J.Yu,J.Hu,J.Yang et al.,“Designing template-freepredictor for targeting protein-ligand binding sites with classifier ensembleand spatial clustering,”IEEE/ACM Transactions on Computational Biology andBioinformatics,vol.10,no.4,pp.994-1008,2013等等。
然而,在基于机器学习的方法中,数据集中类的不平衡问题是一个不可避免的问题,即配体绑定残基(正样本)的数目远小于非配体绑定残基(负样本)的数目。经实验证明,传统的机器学习方法在不平衡数据集上不能取得好的预测结果,这是因为预测结果经常会偏向样本数目多的一类(负样本)。以支持向量机(SVM)为例,它是最常用的机器学习算法之一。SVM通常在平衡的数据集上能够取得较好的效果。然而在不平衡数据集上,SVM往往不能取得令人满意的结果。其潜在的原因可以如下解释:训练在不平衡数据集上SVM的超平面会被推向正样本的一侧,因此该SVM会更倾向于将正样本预测为负样本,从而导致不理想的预测结果。
为了减轻类的不平衡带来的消极影响,研究者提出了许多方法,包括:基于采样的方法、基于主动学习的方法、基于代价敏感学习的方法等。在这些方法中,基于采样的方法是一种最简单直接的方法,该方法通过改变原始数据集中各类别样本的数目和分布来生成一个新的平衡数据集。近些年来,为了有效地在不平衡数据集上训练机器学习模型,基于采样的方法作为一种基本策略广泛使用。
在众多的基于采样的方法中,随机下采样算法(RU)是一种最简单直接的算法。考虑到随机下采样算法的简单性以及上述提到的SVM的高效性,研究者将二者相结合来解决数据集中类的不平衡问题,从而提出了大量的方法,如:(1)P.Kang,and S.Cho,"EUS SVMs:Ensemble of Under-Sampled SVMs for Data Imbalance Problems,"InternationalConference on Neural Information Processing,pp.837-846,2006;(2)D.-J.Yu,J.Hu,Z.-M.Tang et al.,“Improving protein-ATP binding residues prediction byboosting SVMs with random under-sampling,”Neurocomputing,vol.104,pp.180-190,2013等等。
然而,随机下采样算法并不总能取得最佳的效果。原因是随机下采样算法容易造成信息的丢失。在随机下采样与SVM结合的特定背景下,样本信息的丢失会造成SVM的理想超平面的有关线索的丢失,从而导致不理想的预测结果。为了探索更有效的采样算法,研究人员在该领域付出了巨大的努力。前几年,Tang et al.在这篇论文(“SVMs modeling forhighly imbalanced classification,”IEEE Transactions on Systems,Man,andCybernetics,Part B(Cybernetics),vol.39,no.1,pp.281-288,2009)中提出一种基于粒度级SVM的多次下采样算法(GSVM-RU)。GSVM-RU是一种很有效的算法,它合理的将SVM与下采样相结合。经实验证明:在不平衡数据集上,GSVM-RU的分类性能优于传统的SVM算法。然而,GSVM-RU仍然存在一些潜在的缺点,它还有一定的提升空间。GSVM-RU算法的具体步骤及潜在的缺点描述如下:
GSVM-RU是基于粒度计算的。在GSVM-RU算法中,粒度指的是原始训练集的子集。具体而言,GSVM-RU提取所有的正样本来形成一个正信息粒度,用PS表示,同时按照如下采样步骤生成多个负信息粒度:首先GSVM-RU在原始的训练集上训练一个SVM模型,然后提取该SVM的所有负支持向量样本为一个负信息粒度,这些负样本称作“局部负支持向量集”,用NLSV表示;接下来从原始的训练集中移除NLSV来形成一个新的训练集;然后GSVM-RU在新的训练集上训练一个SVM,并且提取该SVM所有的负支持向量样本作为一个新的负信息粒度;重复上述过程若干次得到多个负信息粒度。
当得到多个负信息粒度后,GSVM-RU的目标是将一个正信息粒度(PS)和多个负信息粒度NLSVs聚合成一个最终的训练集(FD),然后在聚合数据集FD上训练最终的SVM模型。考虑到NLSVs的具体数目难以确定,GSVM-RU交替执行采样操作与聚合操作:初始时,FD仅包含PS;每当一个新的NLSV生成时,GSVM-RU通过某种合理的聚合策略将该NLSV聚合到FD中,并且在新得到的聚合数据集FD上训练新的SVM模型。该步骤将会一直执行,直到新得到的NLSV不能进一步的提升训练在FD上的SVM的分类性能。
GSVM-RU提出了两种聚合策略,分别是“丢弃法”和“合并法”。在“丢弃法”中,当一个新的NLSV生成时,只有该负信息粒度中的所有负样本增加到FD中,所有旧的负信息粒度中的负样本都从FD中移除。通过不断的从训练集中移除NLSV,“丢弃法”将SVM的超平面不断的推向负样本来寻找理想的超平面。然而,从训练集中移除大量的负样本可能会引起严重的信息丢失。为了减少信息的丢失,“合并法”被提出来了。在“合并法”中,当一个新的NLSV生成时,GSVM-RU直接将它合并到FD中,并且FD中所有旧的负信息粒度都保留。然而,盲目地将当前的负信息粒度与所有旧的负信息粒度合并很容易导致信息的冗余。
发明内容
针对现有的技术的缺陷与不足,本发明旨在提供一种基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,该预测方法继承了GSVM-RU算法中基于粒度计算的采样方法,同时新提出了基于自适应提升算法(AdaBoost)的多粒度SVM集成算法以及一种简单的后处理算法,从而更有效的预测蛋白质配体绑定位点。
实现本发明目的的技术解决方案为:一种基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,包括以下步骤:
步骤1、根据已有蛋白质序列的进化信息和二级结构进行特征提取,将序列中的氨基酸残基以特征向量形式表示,以残基(位点)为单位构建训练样本集;
步骤2、利用粒度计算的思想对训练样本集进行采样,生成多个子训练样本集;
步骤3、分别在每个子训练样本集上训练支持向量机(SVM)模型,多个SVM组成一个SVM的集合;
步骤4、采用自适应提升算法(AdaBoost)对SVM集合中的多个模型进行集成,得到集成的SVM模型;
步骤5、对于一条给定的查询序列,使用同样的特征提取方法生成序列中每个残基对应的特征向量。对于每个残基样本,用集成的SVM模型进行预测,生成原始预测结果,再利用一种简单的后处理技术对原始的结果进行处理,生成最终的预测结果。
由以上本发明的技术方案可知,本发明提供的预测方法与现有基于机器学习理论的蛋白质-配体绑定位点预测技术相比,更有效的解决了类的不平衡问题,其具体的优点在于:(1)利用粒度计算的思想进行多次采样,有效的减少信息丢失,还能增强模型的可解释性(2)集成多个SVM能够有效地减轻信息的丢失和冗余,提高预测精度,同时还能够增强模型的泛化能力,防止模型过拟合。
附图说明
图1为本发明基于粒度支持向量机集成的蛋白质配体绑定位点预测方法的算法流程图。
图2为第k个残基的PSSM特征向量的示意图。
图3为第k个残基的PSS特征向量的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
如图1所示,根据本发明的较优实施例,基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,用于对一待预测/待查询的蛋白质序列(以下称为给定的查询输入q)进行预测,其分五个步骤,前四个步骤为模型训练阶段,第五个步骤为预测阶段,下面结合图1所示,详细说明上述五个步骤的实现。
第一步、根据已有蛋白质序列的进化信息和二级结构进行特征提取,将序列中的氨基酸残基以特征向量形式表示,以残基(位点)为单位构建训练样本集。对于蛋白质序列集PD中任意一条给定的蛋白质序列P,特征提取的具体步骤如下:
1)根据进化信息提取蛋白质序列P的特征
首先,使用PSI-BLAST工具软件获取该序列的位置特异性得分矩阵PSSM,表示为表达如下:
然后,对进行归一化处理,用uk和σk分别表示第k行中的20个得分的平均值和标准差,表达如下:
归一化后PSSM为Ppssm=(pk,j)L×20,其中pk,j通过下式获得:
则,长度为L的蛋白质序列P经规范化后的位置特异性得分矩阵PSSM表示为:
其次,对于蛋白质序列P中的第k个残基,以PSSM中的第k行为中心,使用一个宽度为W的窗口,如图2所示。该窗口内的所有元素构成一个维数为20·W的向量Fpssm,Fpssm称为第k个残基的PSSM特征向量;
2)根据二级结构提取蛋白质序列P的特征
首先,使用PSIPRED工具软件,生成蛋白质序列P的二级结构矩阵,该矩阵大小为L×3,表示的是蛋白质序列P的二级结构信息;
其次,使用上述同样的宽度为W的窗口,如图3所示。该窗口内的所有元素构成一个维数为3·W的向量Fpss,Fpss称为第k个残基的PSS特征向量;
3)再将向量Fpssm和向量Fpss组合起来,至此可得到第k个残基的最终的特征向量F,其维数为3·W+20·W;
重复上述1)、2)、3)操作,蛋白质序列集PD中所有残基的特征向量,组成训练样本集TD,表示为:
TD←FeatureExtraction(PD)。
第二步、利用粒度计算的思想对训练样本TD集进行采样,生成多个子训练样本集。基于粒度计算的采样方法具体步骤描述如下:
1)在训练样本集中,将所有的绑定残基提取为正样本集,所有的非绑定残基提取为负样本集,将所有的正样本构成一个正信息粒度,表示为PS;
2)在原始的样本训练集上训练SVM,提取该SVM中的所有负支持向量样本为一个负信息粒度,这些负样本称作“局部负支持向量集”,表示为NLSV1;从当前的训练集中移除NLSV1,得到一个新的训练集;在新的训练集上训练SVM,提取该SVM中的所有负支持向量样本为NLSV2;从该新的训练集中移除NLSV2,得到下一个新的训练集;重复上述步骤若干次,直到最新的训练集中负样本与正样本的数目比Ratio小于1。所有的NLSV构成一个负信息粒度集合,表示为NLSV_Set={NSLV1,NLSV2,…,NLSVi,…,NLSVN},N是负信息粒度的数目。
3)分别将NLSV_Set中的每个NLSV与PS结合,生成一个新的训练子集,所有生成的训练子集构成的集合,表示为N_Tr_Set={N_Tr1,N_Tr2,...,N_TrN},N是子集的数目。
第三步、在每个N_Tr上训练一个SVM,该SVM称作基粒度SVM。N个基粒度SVM构成了一个SVM集合,表示为SVM_Team={SVM1,SVM2,…,SVMi,…,SVMN}。
第四步、利用AdaBoost算法对SVM_Team中的SVM进行集成。具体而言,AdaBoost算法从SVM_Team中选择M个SVM模型,M≤N,并计算选择的每个SVM模型对应的权重。根据选择的SVM模型,集成SVM的模型表示为其对应的权重集合表示其中Ei∈[1,N],是SVM_Team中的第Ei个SVM,E1<E2<…<Ei<…<EM
第五步、对于一条给定的查询序列,使用同样的特征提取方法生成序列中每个残基对应的特征向量。用集成的SVM模型SVM_Ensemble对该查询序列上的每个残基样本进行预测并进行后处理,具体步骤描述如下:
(1)对于一个测试残基样本x,分别用SVM_Ensemble中的每个SVM预测其属于正样本的概率,得到一个概率集合其中表示样本x经SVM_Ensemble中的预测属于正样本的概率。
(2)将集合P中的元素按升序排序,得到一个新的概率集合其中
(3)根据前面得到的权重集合SVM_Weight,最终的预测概率表示为:
(4)使用阈值T作为判断基准,当H(x)>T,残基x被预测为绑定残基;否则,残基x被预测为非绑定残基。
本实施例中的验证数据集用Train-NUC表示,它来源于K.Chen,M.J.Mizianty,andL.Kurgan,“Prediction and Analysis of Nucleotide-Binding Residues UsingSequence and Sequence-Derived Structural Descriptors,”Bioinformatics,vol.28,no.3,pp.331-341,2012。Train-NUC包含5种配体蛋白质数据集(ATP227,ADP321,AMP140,GDP105,GTP56),表1显示了Train-NUC的具体构成。
表1—Train-NUC的具体构成
对于Train-NUC中的每种配体蛋白数据集,采用5重交叉验证的方式将本发明方法与其他现有的蛋白质配体绑定位点预测方法(TargetS、NsitePred、SVMPred和Rate4Site)进行对比实验。
TargetS来源于D.-J.Yu,J.Hu,J.Yang et al.,“Designing Template-FreePredictor for Targeting Protein-Ligand Binding Sites with Classifier Ensembleand Spatial Clustering,”IEEE/ACM Transactions on Computational Biology andBioinformatics,vol.10,no.4,pp.994-1008,2013;
NsitePred和SVMPred来源于K.Chen,M.J.Mizianty,and L.Kurgan,“Predictionand Analysis of Nucleotide-Binding Residues Using Sequence and Sequence-Derived Structural Descriptors,”Bioinformatics,vol.28,no.3,pp.331-341,2012;
Rate4Site来源于T.Pupko,R.E.Bell,I.Mayrose et al.,“Rate4Site:AnAlgorithmic Tool for the Identification of Functional Regions in Proteins bySurface Mapping of Evolutionary Determinants within Their Homologues,”Bioinformatics,vol.18,no.suppl 1,pp.S71-S77,2002。
为了便于描述,本发明方法用BGSVM-NUC表示。表2显示了BGSVM-NUC、TargetS、NsitePred、SVMPred和Rate4Site的实验结果。
表2—BGSVM-NUC、TargetS、NsitePred、SVMPred和Rate4Site在Train-NUC上5重交叉验证的结果
其中:
敏感性(Sensitivity,Sn),特异性(Specificity,Sp),准确性(Accuracy,Acc),马修斯相关系数(Matthews correlation coefficient,MCC)的定义如下:
TP是正样本被预测为正样本的数目,FP是负样本被预测为正样本的数目,TN是负样本被预测为负样本的数目,FN是正样本被预测为负样本的数目。上述评价指标都是以阈值为基础的,随阈值的改变而改变,本实施例选取的是使MCC值最大化的阈值。为了进一步评价分类器的性能,本实施例采用了一个与阈值无关的评价指标AUC,即在受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)下方的区域面积。
表2表明:本发明方法(BGSVM-NUC)在5种数据集上的性能优于其他4种预测方法,这是因为它的MCC值和AUC值最高。就AUC而言,在5种配体蛋白数据集上,BGSVM-NUC远超过Rate4site、SVMPred和NsitePred(BGSVM-NUC的AUC分别比Rate4site、SVMPred和NsitePred的AUC平均高了大约15.4%、4.1%和3.3%)。与AUC排名第二的TargetS相比,BGSVM-NUC的AUC平均增加了大约1.0%。从MCC的角度来看,BGSVM-NUC仍然显著地优于Rate4site、SVMPred和NsitePred。例如,BGSVM-NUC的MCC相比SVMPred和NsitePred的MCC分别平均增长了大约9.7%和7.9%。与TargetS相比,BGSVM-NUC的MCC平均增长了大约2.5%。

Claims (6)

1.一种基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,其特征在于包括以下步骤:
步骤1、根据已有蛋白质序列的进化信息和二级结构进行特征提取,将序列中的氨基酸残基以特征向量形式表示,以残基为单位构建训练样本集;
步骤2、利用粒度计算的思想对训练样本集进行采样,生成多个子训练样本集;
步骤3、分别在每个子训练样本集上训练支持向量机SVM模型,多个SVM组成一个SVM的集合;
步骤4、采用自适应提升算法AdaBoost对SVM集合中的多个模型进行集成,得到集成的SVM模型;
步骤5、对于一条给定的查询序列,使用同样的特征提取方法生成序列中每个残基对应的特征向量;对于每个残基样本,用集成的SVM模型进行预测,生成原始预测结果,再利用后处理技术对原始的结果进行处理,生成最终的预测结果。
2.根据权利要求1所述的基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,其特征在于:所述步骤1中,对于蛋白质序列集PD中任一条给定的蛋白质序列P,其对应的特征提取的具体步骤如下:
1)根据进化信息提取蛋白质序列P的特征
首先,使用PSI-BLAST工具软件获取该序列的位置特异性得分矩阵PSSM,表示为表达如下:
<mrow> <msubsup> <mi>P</mi> <mrow> <mi>p</mi> <mi>s</mi> <mi>s</mi> <mi>m</mi> </mrow> <mrow> <mi>o</mi> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>i</mi> <mi>n</mi> <mi>a</mi> <mi>l</mi> </mrow> </msubsup> <mo>=</mo> <msub> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msub> <mi>o</mi> <mrow> <mn>1</mn> <mo>,</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>o</mi> <mrow> <mn>1</mn> <mo>,</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>o</mi> <mrow> <mn>1</mn> <mo>,</mo> <mn>20</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>o</mi> <mrow> <mn>2</mn> <mo>,</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>o</mi> <mrow> <mn>2</mn> <mo>,</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>o</mi> <mrow> <mn>2</mn> <mo>,</mo> <mn>20</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>o</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>o</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>o</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>20</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>o</mi> <mrow> <mi>L</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>o</mi> <mrow> <mi>L</mi> <mo>,</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>o</mi> <mrow> <mi>L</mi> <mo>,</mo> <mn>20</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mrow> <mi>L</mi> <mo>&amp;times;</mo> <mn>20</mn> </mrow> </msub> <mo>;</mo> </mrow>
然后,对进行归一化处理,用uk和σk分别表示第k行中的20个得分的平均值和标准差,表达如下:
<mrow> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>20</mn> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>20</mn> </msubsup> <msub> <mi>o</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>;</mo> </mrow>
<mrow> <msub> <mi>&amp;sigma;</mi> <mi>k</mi> </msub> <mo>=</mo> <msqrt> <mrow> <mfrac> <mn>1</mn> <mn>20</mn> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>20</mn> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>;</mo> </mrow>
归一化后PSSM为Ppssm=(pk,j)L×20,其中pk,j通过下式获得:
<mrow> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>o</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>k</mi> </msub> </mrow> <msub> <mi>&amp;sigma;</mi> <mi>k</mi> </msub> </mfrac> <mo>;</mo> </mrow>
则,长度为L的蛋白质序列P经规范化后的位置特异性得分矩阵PSSM表示为:
<mrow> <msub> <mi>P</mi> <mrow> <mi>p</mi> <mi>s</mi> <mi>s</mi> <mi>m</mi> </mrow> </msub> <mo>=</mo> <msub> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msub> <mi>p</mi> <mrow> <mn>1</mn> <mo>,</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>p</mi> <mrow> <mn>1</mn> <mo>,</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>p</mi> <mrow> <mn>1</mn> <mo>,</mo> <mn>20</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>p</mi> <mrow> <mn>2</mn> <mo>,</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>p</mi> <mrow> <mn>2</mn> <mo>,</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>p</mi> <mrow> <mn>2</mn> <mo>,</mo> <mn>20</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>p</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>20</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>p</mi> <mrow> <mi>L</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>p</mi> <mrow> <mi>L</mi> <mo>,</mo> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>p</mi> <mrow> <mi>L</mi> <mo>,</mo> <mn>20</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mrow> <mi>L</mi> <mo>&amp;times;</mo> <mn>20</mn> </mrow> </msub> <mo>;</mo> </mrow>
其次,对于蛋白质序列P中的第k个残基,以PSSM中的第k行为中心,使用一个宽度为W的窗口,如下所示:
该窗口内的所有元素构成一个维数为20·W的向量Fpssm,Fpssm称为第k个残基的PSSM特征向量;
2)根据二级结构提取蛋白质序列P的特征
首先,使用PSIPRED工具软件,生成蛋白质序列P的二级结构矩阵,该矩阵大小为L×3,表示的是蛋白质序列P的二级结构信息;
其次,使用上述同样的宽度为W的窗口,该窗口内的所有元素构成一个维数为3·W的向量Fpss,Fpss称为第k个残基的PSS特征向量;
3)再将向量Fpssm和向量Fpss组合起来,至此可得到第k个残基的最终的特征向量F,其维数为3·W+20·W;
重复上述1)、2)、3)操作,蛋白质序列集PD中所有残基的特征向量,组成训练样本集TD,表示为:
TD←FeatureExtraction(PD)。
3.根据权利要求1所述的基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,其特征在于,所述步骤2中,基于粒度计算的采样方法具体步骤描述如下:
1)在训练样本集中,将所有的绑定残基提取为正样本集,所有的非绑定残基提取为负样本集,将所有的正样本构成一个正信息粒度,表示为PS;
2)在原始的样本训练集上训练SVM,提取该SVM中的所有负支持向量样本为一个负信息粒度,这些负样本称作“局部负支持向量集”,表示为NLSV1;从当前的训练集中移除NLSV1,得到一个新的训练集;在新的训练集上训练SVM,提取该SVM中的所有负支持向量样本为NLSV2;从该新的训练集中移除NLSV2,得到下一个新的训练集;重复上述步骤若干次,直到最新的训练集中负样本与正样本的数目比Ratio小于1;所有的NLSV构成一个负信息粒度集合,表示为NLSV_Set={NSLV1,NLSV2,…,NLSVi,…,NLSVN},N是负信息粒度的数目。
3)分别将NLSV_Set中的每个NLSV与PS结合,生成一个新的训练子集,所有生成的训练子集构成的集合,表示为N_Tr_Set={N_Tr1,N_Tr2,...,N_TrN},N是子集的数目。
4.根据权利要求1所述的基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,其特征在于所述步骤3中,在每个训练子集N_Tr上训练一个SVM,该SVM称作基粒度SVM,N个基粒度SVM构成了一个SVM集合,表示为SVM_Team={SVM1,SVM2,…,SVMi,…,SVMN}。
5.根据权利要求1所述的基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,其特征在于所述步骤4中,利用AdaBoost算法对SVM_Team中的SVM进行集成;AdaBoost算法从SVM_Team中选择M个SVM模型,M≤N,并计算选择的每个SVM模型对应的权重;根据选择的SVM模型,集成SVM的模型表示为其对应的权重集合表示其中Ei∈[1,N],是SVM_Team中的第Ei个SVM,E1<E2<…<Ei<…<EM
6.根据权利要求1所述的基于粒度支持向量机集成的蛋白质配体绑定位点预测方法,其特征在于所述步骤5中的残基样本预测及后处理过程,具体步骤描述如下:
1)对于一个测试残基样本x,分别用SVM_Ensemble中的每个SVM预测其属于正样本的概率,得到一个概率集合其中表示样本x经SVM_Ensemble中的预测属于正样本的概率;
(2)将集合P中的元素按升序排序,得到一个新的概率集合其中
(3)根据前面得到的权重集合SVM_Weight,最终的预测概率表示为:
(4)使用阈值T作为判断基准,当H(x)>T,残基x被预测为绑定残基;否则,x被预测为非绑定残基。
CN201710494361.XA 2017-06-26 2017-06-26 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法 Pending CN107194207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710494361.XA CN107194207A (zh) 2017-06-26 2017-06-26 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710494361.XA CN107194207A (zh) 2017-06-26 2017-06-26 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法

Publications (1)

Publication Number Publication Date
CN107194207A true CN107194207A (zh) 2017-09-22

Family

ID=59880128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710494361.XA Pending CN107194207A (zh) 2017-06-26 2017-06-26 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法

Country Status (1)

Country Link
CN (1) CN107194207A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742063A (zh) * 2017-10-20 2018-02-27 桂林电子科技大学 一种原核生物σ54启动子的预测方法
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN109147866A (zh) * 2018-06-28 2019-01-04 南京理工大学 基于采样与集成学习的蛋白质-dna绑定残基预测方法
CN109326329A (zh) * 2018-11-14 2019-02-12 金陵科技学院 一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760210A (zh) * 2012-06-19 2012-10-31 南京理工大学常熟研究院有限公司 一种蛋白质三磷酸腺苷绑定位点预测方法
CN103617203A (zh) * 2013-11-15 2014-03-05 南京理工大学 基于查询驱动的蛋白质-配体绑定位点预测方法
CN104077499A (zh) * 2014-05-25 2014-10-01 南京理工大学 基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法
CN104992079A (zh) * 2015-06-29 2015-10-21 南京理工大学 基于采样学习的蛋白质-配体绑定位点预测方法
KR101593045B1 (ko) * 2014-11-12 2016-02-12 인하대학교 산학협력단 결합 상대방을 고려하여 dna 서열에서 단백질과 결합하는 부위를 예측하는 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760210A (zh) * 2012-06-19 2012-10-31 南京理工大学常熟研究院有限公司 一种蛋白质三磷酸腺苷绑定位点预测方法
CN103617203A (zh) * 2013-11-15 2014-03-05 南京理工大学 基于查询驱动的蛋白质-配体绑定位点预测方法
CN104077499A (zh) * 2014-05-25 2014-10-01 南京理工大学 基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法
KR101593045B1 (ko) * 2014-11-12 2016-02-12 인하대학교 산학협력단 결합 상대방을 고려하여 dna 서열에서 단백질과 결합하는 부위를 예측하는 방법
CN104992079A (zh) * 2015-06-29 2015-10-21 南京理工大学 基于采样学习的蛋白质-配体绑定位点预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DONG-JUN YU等: "Designing Template-Free Predictor for Targeting Protein-Ligand Binding Sites with Classifier Ensemble and Spatial Clustering", 《ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
DONG-JUN YU等: "Improving protein-ATP binding residues prediction by boosting SVMs with random under-sampling", 《NEUROCOMPUTING 104》 *
YUCHUN TANG等: "SVMs Modeling for Highly Imbalanced Classification", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART B: CYBERNETICS》 *
朱非易: "基于支持向量机集成的蛋白质与维生素绑定位点预测", 《现代电子技术》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742063A (zh) * 2017-10-20 2018-02-27 桂林电子科技大学 一种原核生物σ54启动子的预测方法
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN108763865B (zh) * 2018-05-21 2023-10-20 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN109147866A (zh) * 2018-06-28 2019-01-04 南京理工大学 基于采样与集成学习的蛋白质-dna绑定残基预测方法
CN109326329A (zh) * 2018-11-14 2019-02-12 金陵科技学院 一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法
CN109326329B (zh) * 2018-11-14 2020-07-07 金陵科技学院 一种锌结合蛋白质作用位点预测方法
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法
CN110689920B (zh) * 2019-09-18 2022-02-11 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测方法

Similar Documents

Publication Publication Date Title
CN107194207A (zh) 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
Li et al. DeepAtom: A framework for protein-ligand binding affinity prediction
Zhang et al. Integrating feature selection and feature extraction methods with deep learning to predict clinical outcome of breast cancer
Liu et al. Model-based synthetic sampling for imbalanced data
Hong et al. Efficient huge-scale feature selection with speciated genetic algorithm
Abdi et al. A novel weighted support vector machine based on particle swarm optimization for gene selection and tumor classification
CN106202952A (zh) 一种基于机器学习的帕金森疾病诊断方法
Li et al. Protein contact map prediction based on ResNet and DenseNet
Sahu et al. Feature selection model based on clustering and ranking in pipeline for microarray data
CN103617203B (zh) 基于查询驱动的蛋白质-配体绑定位点预测方法
Wang et al. Machine learning-based methods for prediction of linear B-cell epitopes
CN104809476A (zh) 一种基于分解的多目标进化模糊规则分类方法
Arun et al. Genetic algorithm-based oversampling approach to prune the class imbalance issue in software defect prediction
Amidi et al. A machine learning methodology for enzyme functional classification combining structural and protein sequence descriptors
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
Wang et al. Identification of hormone-binding proteins using a novel ensemble classifier
Wang et al. AWSMOTE: An SVM‐Based Adaptive Weighted SMOTE for Class‐Imbalance Learning
Jiang et al. Undersampling of approaching the classification boundary for imbalance problem
Parvin et al. A new method for constructing classifier ensembles
Shoombuatong et al. Predicting protein crystallization using a simple scoring card method
Nguyen et al. Combined kernel function approach in SVM for diagnosis of cancer
Jenifer et al. Classification of microarray data using SVM mapreduce
CN101609486A (zh) G蛋白偶联受体超类的识别方法及其Web服务系统
Ngufor et al. A systematic prediction of adverse drug reactions using pre-clinical drug characteristics and spontaneous reports
Li et al. ELM combined with hybrid feature selection for classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922

RJ01 Rejection of invention patent application after publication