CN105808975A - 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法 - Google Patents
基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法 Download PDFInfo
- Publication number
- CN105808975A CN105808975A CN201610145079.6A CN201610145079A CN105808975A CN 105808975 A CN105808975 A CN 105808975A CN 201610145079 A CN201610145079 A CN 201610145079A CN 105808975 A CN105808975 A CN 105808975A
- Authority
- CN
- China
- Prior art keywords
- protein
- dna
- feature
- prediction
- binding site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种基于多核学习与Boosting算法的蛋白质‑DNA绑定位点预测方法,包括下列步骤:特征提取,抽取每个氨基酸残基的进化信息特征向量与溶剂可及性特征向量;特征融合,使用基于线性核的多核学习算法对上述两个特征向量的权重信息进行评估,并根据权重进行加权串行组合得到最终的样本特征向量;使用随机下采样技术对非绑定位点的样本进行多次下采样,将下采样得到的非绑定位点样本子集与绑定位点样本集合并后训练一个SVM,得到多个SVM预测模型;使用Boosting提升算法将上述多个SVM模型进行集成,形成一个最终的预测模型。该方法提升了模型的可解释性并有效的降低训练集的规模,而且也提高了模型的预测精度。
Description
技术领域
本发明涉及生物信息学预测蛋白质-DNA相互作用领域,具体而言涉及一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法。
背景技术
蛋白质与DNA之间的交互作用在生命活动中是屡见不鲜的,它广泛存在于大量的生命体中。这种交互作用在生命活动中起到了至关重要的作用,例如:生命活动中的DNA复制、DNA转录以及DNA表达等活动大多数都需要蛋白质与DNA之间的协作才能顺利完成。这种交互作用通常表现为DNA绑定蛋白质中的某些固定残基(即DNA绑定位点),使得DNA可以与蛋白质共同完成某项生命活动。蛋白质中的DNA绑定位点往往也是某些药物的重要靶点。想要彻底弄清楚生命活动的过程,尤其是有关DNA生命活动的细节,快速、精确地定位蛋白质序列中的蛋白质-DNA绑定位点具有重要生物学意义。
然而,通过生物实验的方法来确定蛋白质中的DNA绑定位点需要耗费大量的时间和资金,并且效率较低;而且,随着测序技术的飞速发展和人类结构基因组的不断推进,蛋白质组学中已经累积了大量未进行DNA绑定位点标定的蛋白质序列。因此应用生物信息学的相关知识,直接从蛋白质序列出发,研发一种能够快速且准确预测蛋白质中的DNA绑定位点的智能方法有着迫切需求,且对于发现和认识蛋白质结构、生理功能以及有关DNA生命活动的细节都有着重大的意义。
目前,针对基于序列信息的蛋白质-DNA绑定位点的高精度预测模型还很欠缺。通过查阅相关文献,可以发现,目前专门设计来进行基于序列信息的蛋白质-DNA绑定位点预测的计算模型有:DISIS、DNABindR、BindN、BindN-rf、DP-Bind以及MetaDBSite等。其中DISIS(Ofran Y,Mysore V,Rost B.Prediction of DNA-binding residues from sequence[J].Bioinformatics,2007,23(13):i347-i353.)使用了支持向量机与神经网络的预测算法,并结合蛋白质的进化信息、蛋白质二级结构预测信息以及蛋白质溶剂可及性预测信息视角特征进行蛋白质序列中的DNA绑定位点预测。Ofran Y等人还提供了在线的DISIS服务系统(http://cubic.bioc.columbia.edu/services/disis)用于帮助相关学者预测蛋白质中的DNA绑定位点。DNABindR(Yan C,Terribilini M,Wu F,et al.Predicting DNA-binding sites of proteins fromamino acid sequence[J].BMC bioinformatics,2006,7(1):1.)使用朴素贝叶斯分类器结合蛋白质相对的溶剂可及性信息、序列信息熵、二级结构信息、静电位信息以及疏水性信息五个视角特征进行DNA绑定位点预测,并提供了在线服务系统:http://turing.cs.iastate.edu/PredDNA/predict.html。Wang L等人提出了两种蛋白质-DNA绑定位点预测系统:BindN(Wang L,Brown S J.BindN:a web-based tool for efficient prediction of DNAand RNA binding sites in amino acid sequences[J].Nucleic acids research,2006,34(suppl 2):W243-W248.)与BindN-rf(Wang L,Yang M Q,Yang J Y.Prediction of DNA-binding residuesfrom protein sequence information using random forests[J].Bmc Genomics,2009,10(1):1.)。BindN与BindN-rf分别使用了支持向量机与随机森林两种不同的预测算法。DP-Bind(Hwang S,Gou Z,Kuznetsov I B.DP-Bind:a web server for sequence-based prediction of DNA-bindingresidues in DNA-binding proteins[J].Bioinformatics,2007,23(5):634-636.)使用了支持向量机、核逻辑斯特回归(Kernel logistic regression)以及惩罚逻辑斯特回归(Penalized logisticregression)三个预测算法,并结合基于序列的BLOSUM62信息与进化信息视角特征进行蛋白质序列中的DNA绑定位点预测。MetaDBSite(Si J,Zhang Z,Lin B,et al.MetaDBSite:a metaapproach to improve protein DNA-binding sites prediction[J].BMC systems biology,2011,5(Suppl1):S7.)是一个预测蛋白质-DNA绑定位点的合成系统,它是将DISIS、DP-Bind、DNABindR等6个已有的基于序列的DNA绑定位点预测系统相结合,以此来预测蛋白质序列中的DNA绑定位点。
尽管在基于序列的蛋白质-DNA绑定位点预测研究中已有部分成果,但该研究任务还远远没有结束。已有的研究成果大多数都没有考虑到蛋白质-DNA绑定位点预测是一个典型的不平衡学习问题,并没有对DNA绑定位点残基与非绑定位点残基进行区别对待,这就会使得最终的预测系统对DNA绑定位点的预测精度偏低,而对非绑定位点的预测精度偏高;且没有充分考虑到不同视角特征对于DNA绑定位点预测的贡献度不尽相同,而是将不同的视角特征一视同仁,从而导致蛋白质-DNA绑定位点预测模型的可解释性较差且预测精度远远没有达到实际应用的要求。因此基于序列的蛋白质-DNA绑定位点预测任务迫切需要进一步研究。
发明内容
为了解决上述基于序列的蛋白质-DNA绑定位点预测问题中由于不同特征视角之间的差异性以及样本不平衡问题没有被充分考虑而导致预测精度距离实际应用差距较大且可解释性较差的缺点,本发明的目的在于提出一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法。
为达成上述目的,本发明所采用的技术方案如下:
一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法,包括以下步骤:
步骤1:特征提取,使用PSI-BLAST与SANN程序分别提取蛋白质序列的进化信息特征和溶剂可及性特征,在此基础上使用滑动窗口技术构建每一个氨基酸残基的特征向量,每个残基有两个对应着两种不同的信息来源的特征向量;
步骤2:特征融合,使用基于线性核的多核学习算法对上述步骤1中的两个特征向量进行评估,得到相应的权重信息,并根据权重进行加权串行组合得到最终的样本特征向量;
步骤3:使用随机下采样技术,对非绑定位点残基进行多次下采样,得到多个非绑定位点样本子集,将每一个非绑定位点样本子集与绑定位点样本集合并后训练一个SVM预测模型,得到多个SVM预测模型;以及
步骤4:使用Boosting提升算法,将步骤3中得到的多个SVM预测模型进行集成,得到最终的蛋白质-DNA绑定位点预测模型,用于预测样本是否为DNA绑定位点;
对于待预测蛋白质序列,采用所述步骤1的方式进行特征提取和步骤2的方式进行特征融合,然后输入步骤4中所最终得到的蛋白质-DNA绑定位点预测模型,预测出蛋白质-DNA绑定位点。
进一步,在上述步骤1中,对于任意一个由n个氨基酸残基组成的蛋白质序列,通过使用PSI-BLAST程序提取得到该蛋白质的进化信息特征,即位置特异性得分矩阵,大小为n×20;再对所述位置特异性得分矩阵使用sigmoid函数,即f(x)=1/(1+e-x),进行逐行标准化,然后使用长度为winsize的滑动窗口得到每个氨基酸残基的进化特征矩阵,将进化特征矩阵拉成长度为20×winsize的特征向量。
进一步,在上述的步骤1中,将一个由n个氨基酸组成的蛋白质序列输入到SANN程序,得到蛋白质序列的溶剂可及性特征,即预测概率矩阵,矩阵大小为n×3;再使用长度为winsize的滑动窗口,得到每个氨基酸残基的溶剂可及性信息矩阵;最后将溶剂可及性信息矩阵拉成长度为3×winsize的特征向量。
由以上本发明的技术方案可知,本发明的有益效果在于:
1.提高模型的预测精度:使用了基于线性核的多核学习算法、随机下采样技术以及Boosting提升算法相结合的策略,使得计算模型可以进一步挖掘更多有效的多视角特征信息与不平衡样本分布信息,提高了预测蛋白质-DNA绑定位点的计算模型的预测精度;
2.提升模型的可解释性:基于线性核的多核学习算法可以衡量不同特征视角对最终蛋白质-DNA绑定预测模型的贡献程度,Boosting提升算法可以衡量每个基于随机下采样得到的SVM预测子模型对最终预测模型的作用大小。这就使得预测模型的工作原理更加清晰,从而提升了模型的可解释性。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1为结合基于线性核的多核学习算法、随机下采样技术以及Boosting提升算法的蛋白质-DNA绑定位点预测方法的示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是应为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
图1给出了本发明的预测方法系统结构示意图。结合图1所示,根据本发明的实施例,一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法,包括了以下步骤:
首先,使用PSI-BLAST和SANN程序分别获取训练蛋白质的进化信息特征和溶剂可及性特征;其次,使用滑动窗口技术,从PSSM矩阵与PSA矩阵构建每一个氨基酸残基的特征向量,再使用基于线性核的多核学习算法进行上述两种信息视角的特征对蛋白质-DNA绑定位点预测模型贡献度的权重评估,并根据权重进行加权串行组合得到最终用于预测的特征向量;再次,使用随机下采样技术,对非绑定位点残基进行多次下采样,将每次下采样得到的非绑定位点样本子集与绑定位点样本构成一个训练集,在该训练集上训练一个SVM,得到多个SVM预测子模型;然,使用Boosting提升算法,将上述多个SVM预测子模型进行集成,得到最终的蛋白质-DNA绑定位点预测系统。
下面将结合附图所示,更加具体地描述前述过程。
步骤1:特征提取
对于一个包含n个氨基酸残基的蛋白质序列,通过PSI-BLAST程序可得到进化信息特征,即位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM),大小为n×20(n行20列),将蛋白质序列信息转化成矩阵表达形式,如下:
对PSSM中的每个值进行归一化:
使用大小为winsize的滑动窗口,来提取每个氨基酸残基的PSSM特征矩阵:
然后,将该氨基酸残基的特征矩阵拉成维数为20×winsize的特征向量:
对于一个包含n个氨基酸残基的蛋白质序列,通过SANN程序可得到其溶剂可及性特征,即预测概率矩阵(Predicted Solvent Accessibility,PSA),大小为n×3(n行3列):
使用上述同样大小的滑动窗口技术,可以得到每个氨基酸残基的PSA特征矩阵:
然后,将该氨基酸残基的PSA特征矩阵拉成维数为3×winsize的特征向量:
步骤2:使用基于线性核的多核学习算法对步骤1中得到的PSSM与PSA两个视角的特征向量对蛋白质-DNA绑定位点预测性能的贡献程度进行有效评估,得到相应的权重值,最后根据对应的权重值对PSSM与PSA两个视角的特征向量进行加权串行组合形成每个样本的最终样本特征向量。
设是每个氨基酸残基最终的特征表达,其中wpssm≥0与wpsa≥0分别表示PSSM视角特征xpssm与PSA视角特征ypsa对应的权重值,它们可以理解为PSSM视角特征与PSA视角特征对蛋白质-DNA绑定位点预测模型的贡献程度。为了使用基于线性核的多核学习算法求wpssm与wpsa值,我们首先需要使用线性核函数(kl(x,y)=xTy)在训练样本集合上构建PSSM与PSA特征视角对应的核矩阵与 由等式(8)可知,在样本最终的特征空间上的线性核矩阵为:
根据Cortes C等人研究的基于中心化核对齐的多核学习成果(Cortes C,Mohri M,Rostamizadeh A.Algorithms for learning kernels based on centered alignment[J].The Journal ofMachine Learning Research,2012,13(1):795-828.),如等式(9)所示,我们将通过最大化最优化函数CA(L,yyT)来求解PSSM与PSA视角的权重wpssm与wpsa。
其中y是训练集合中的所有样本的类别向量,是中心化矩阵,N为训练样本集合的样本数目,<·,·>F与||·||F分别表示Frobenius内积与Frobenius范数。
令a=(<UNLpssmUN,yyT>F,<UNLpsaUN,yyT>F)T,以及M的定义如下:
则等式(9)可以转换为等式(11)
式(11)表示的最优化问题是一个典型的凸优化问题,可以使用二次规划来进行求解,然后,使用求得的wpssm与wpsa权重值加权串行组合成
步骤3:使用随机下采样技术,对非绑定位点的样本进行多次下采样,将每一次下采样得到的非绑定位点子集与绑定位点样本构成一个训练集,在该训练集合上训练一个SVM,最终得到多个SVM预测子模型。通过对非绑定位点样本集合的多次随机下采样,可以在保证样本分布均匀的前提下,尽可能少的丢失非绑定位点信息。
步骤4:使用Boosting提升算法(Zhou Z H.Ensemble methods:foundations andalgorithms[M].CRC Press,2012.)将步骤3中得到的多个SVM预测子模型联合成最终的预测模型,并构建最后的预测模型,用于预测蛋白质序列中每个氨基酸残基是否为DNA绑定位点。
最后,对于待预测蛋白质序列,采用所述步骤1的方式进行特征提取和步骤2的方式进行特征融合,然后输入步骤4中所最终得到的蛋白质-DNA绑定位点预测模型,预测出蛋白质-DNA绑定位点。
综上所述,本发明与现有的预测方法相比,其显著优点在于:本方法可以有效的评价不同视角特征对于最终的蛋白质-DNA绑定位点预测系统的贡献度,并且该方法还拥有解决蛋白质-DNA绑定位点不平衡数据学习的能力。在增强预测模型可解释的同时,还使得最终的预测精度得到提升。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (3)
1.一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法,其特征在于,包括以下步骤:
步骤1:特征提取,使用PSI-BLAST与SANN程序分别提取蛋白质序列的进化信息特征和溶剂可及性特征,在此基础上使用滑动窗口技术构建每一个氨基酸残基的特征向量,每个残基有两个对应着两种不同的信息来源的特征向量;
步骤2:特征融合,使用基于线性核的多核学习算法对上述步骤1中的两个特征向量进行评估,得到相应的权重信息,并根据权重进行加权串行组合得到最终的样本特征向量;
步骤3:使用随机下采样技术,对非绑定位点残基进行多次下采样,得到多个非绑定位点样本子集,将每一个非绑定位点样本子集与绑定位点样本集合并后训练一个SVM预测模型,得到多个SVM预测模型;以及
步骤4:使用Boosting提升算法,将步骤3中得到的多个SVM预测模型进行集成,得到最终的蛋白质-DNA绑定位点预测模型,用于预测样本是否为DNA绑定位点;
步骤5、对于待预测蛋白质序列,采用所述步骤1的方式进行特征提取和步骤2的方式进行特征融合,然后输入步骤4中所最终得到的蛋白质-DNA绑定位点预测模型,预测出蛋白质-DNA绑定位点。
2.根据权利要求1所述的基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法,其特征在于:在上述步骤1中,对于任意一个由n个氨基酸残基组成的蛋白质序列,通过使用PSI-BLAST程序提取得到该蛋白质的进化信息特征,即位置特异性得分矩阵,大小为n×20;再对所述位置特异性得分矩阵使用sigmoid函数,即f(x)=1/(1+e-x),进行逐行标准化,然后使用长度为winsize的滑动窗口得到每个氨基酸残基的进化特征矩阵,将进化特征矩阵拉成长度为20×winsize的特征向量。
3.根据权利要求2所述的基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法,其特征在于:在上述的步骤1中,将一个由n个氨基酸组成的蛋白质序列输入到SANN程序,得到蛋白质序列的溶剂可及性特征,即预测概率矩阵,矩阵大小为n×3;再使用长度为winsize的滑动窗口,得到每个氨基酸残基的溶剂可及性信息矩阵;最后将溶剂可及性信息矩阵拉成长度为3×winsize的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610145079.6A CN105808975A (zh) | 2016-03-14 | 2016-03-14 | 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610145079.6A CN105808975A (zh) | 2016-03-14 | 2016-03-14 | 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105808975A true CN105808975A (zh) | 2016-07-27 |
Family
ID=56468336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610145079.6A Pending CN105808975A (zh) | 2016-03-14 | 2016-03-14 | 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105808975A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273714A (zh) * | 2017-06-07 | 2017-10-20 | 南京理工大学 | 结合蛋白质序列与结构信息的atp绑定位点预测方法 |
CN108957173A (zh) * | 2018-06-08 | 2018-12-07 | 山东超越数控电子股份有限公司 | 一种用于航空电子系统状态的检测方法 |
CN109147866A (zh) * | 2018-06-28 | 2019-01-04 | 南京理工大学 | 基于采样与集成学习的蛋白质-dna绑定残基预测方法 |
CN109785899A (zh) * | 2019-02-18 | 2019-05-21 | 东莞博奥木华基因科技有限公司 | 一种基因型校正的装置和方法 |
CN109816409A (zh) * | 2017-11-20 | 2019-05-28 | 优估(上海)信息科技有限公司 | 一种二手车定价方法、装置、设备及计算机可读介质 |
CN109903071A (zh) * | 2017-12-11 | 2019-06-18 | 优估(上海)信息科技有限公司 | 一种二手车定价方法、装置、设备及计算机可读介质 |
CN112149881A (zh) * | 2020-09-03 | 2020-12-29 | 浙江工业大学 | 一种基于卷积神经网络的dna绑定残基预测方法 |
CN113035270A (zh) * | 2019-12-24 | 2021-06-25 | 邵阳学院 | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 |
CN113361752A (zh) * | 2021-05-21 | 2021-09-07 | 浙江工业大学 | 一种基于多视角学习的蛋白质溶剂可及性预测方法 |
CN114512188A (zh) * | 2022-03-20 | 2022-05-17 | 湖南大学 | 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760210A (zh) * | 2012-06-19 | 2012-10-31 | 南京理工大学常熟研究院有限公司 | 一种蛋白质三磷酸腺苷绑定位点预测方法 |
CN103617203A (zh) * | 2013-11-15 | 2014-03-05 | 南京理工大学 | 基于查询驱动的蛋白质-配体绑定位点预测方法 |
CN103955628A (zh) * | 2014-04-22 | 2014-07-30 | 南京理工大学 | 基于子空间融合的蛋白质-维他命绑定位点预测方法 |
CN104077499A (zh) * | 2014-05-25 | 2014-10-01 | 南京理工大学 | 基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法 |
CN104992079A (zh) * | 2015-06-29 | 2015-10-21 | 南京理工大学 | 基于采样学习的蛋白质-配体绑定位点预测方法 |
-
2016
- 2016-03-14 CN CN201610145079.6A patent/CN105808975A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760210A (zh) * | 2012-06-19 | 2012-10-31 | 南京理工大学常熟研究院有限公司 | 一种蛋白质三磷酸腺苷绑定位点预测方法 |
CN103617203A (zh) * | 2013-11-15 | 2014-03-05 | 南京理工大学 | 基于查询驱动的蛋白质-配体绑定位点预测方法 |
CN103955628A (zh) * | 2014-04-22 | 2014-07-30 | 南京理工大学 | 基于子空间融合的蛋白质-维他命绑定位点预测方法 |
CN104077499A (zh) * | 2014-05-25 | 2014-10-01 | 南京理工大学 | 基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法 |
CN104992079A (zh) * | 2015-06-29 | 2015-10-21 | 南京理工大学 | 基于采样学习的蛋白质-配体绑定位点预测方法 |
Non-Patent Citations (5)
Title |
---|
CORINNA CORTES等: "Two-Stage Learning Kernel Algorithms", 《INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 * |
DONG-JUN YU等: "Improving protein-ATP binding residues prediction by boosting SVMs with random under-sampling", 《NEUROCOMPUTING》 * |
YANTINGLU等: "Multiple kernel clustering based on centered kernel alignment", 《PATTERN RECOGNITION》 * |
杨骥: "基于序列与结构特征结合的蛋白质与DNA绑定位点预测", 《计算机与现代化》 * |
陶超: "高分辨率遥感影像中的城区与建筑物检测方法研究", 《中国博士学位论文全文数据库-信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273714A (zh) * | 2017-06-07 | 2017-10-20 | 南京理工大学 | 结合蛋白质序列与结构信息的atp绑定位点预测方法 |
CN109816409A (zh) * | 2017-11-20 | 2019-05-28 | 优估(上海)信息科技有限公司 | 一种二手车定价方法、装置、设备及计算机可读介质 |
CN109903071A (zh) * | 2017-12-11 | 2019-06-18 | 优估(上海)信息科技有限公司 | 一种二手车定价方法、装置、设备及计算机可读介质 |
CN108957173A (zh) * | 2018-06-08 | 2018-12-07 | 山东超越数控电子股份有限公司 | 一种用于航空电子系统状态的检测方法 |
CN109147866A (zh) * | 2018-06-28 | 2019-01-04 | 南京理工大学 | 基于采样与集成学习的蛋白质-dna绑定残基预测方法 |
CN109785899A (zh) * | 2019-02-18 | 2019-05-21 | 东莞博奥木华基因科技有限公司 | 一种基因型校正的装置和方法 |
CN113035270B (zh) * | 2019-12-24 | 2022-07-19 | 邵阳学院 | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 |
CN113035270A (zh) * | 2019-12-24 | 2021-06-25 | 邵阳学院 | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 |
CN112149881A (zh) * | 2020-09-03 | 2020-12-29 | 浙江工业大学 | 一种基于卷积神经网络的dna绑定残基预测方法 |
CN112149881B (zh) * | 2020-09-03 | 2023-12-29 | 浙江工业大学 | 一种基于卷积神经网络的dna绑定残基预测方法 |
CN113361752A (zh) * | 2021-05-21 | 2021-09-07 | 浙江工业大学 | 一种基于多视角学习的蛋白质溶剂可及性预测方法 |
CN113361752B (zh) * | 2021-05-21 | 2022-07-26 | 浙江工业大学 | 一种基于多视角学习的蛋白质溶剂可及性预测方法 |
CN114512188A (zh) * | 2022-03-20 | 2022-05-17 | 湖南大学 | 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 |
CN114512188B (zh) * | 2022-03-20 | 2024-04-05 | 湖南大学 | 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105808975A (zh) | 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法 | |
Kouraytem et al. | Modeling process–structure–property relationships in metal additive manufacturing: a review on physics-driven versus data-driven approaches | |
Bai et al. | Dynamic bus travel time prediction models on road with multiple bus routes | |
CN103955628B (zh) | 基于子空间融合的蛋白质‑维他命绑定位点预测方法 | |
CN104077499B (zh) | 基于有监督上采样学习的蛋白质‑核苷酸绑定位点预测方法 | |
CN102760210A (zh) | 一种蛋白质三磷酸腺苷绑定位点预测方法 | |
CN104992079A (zh) | 基于采样学习的蛋白质-配体绑定位点预测方法 | |
CN107273714A (zh) | 结合蛋白质序列与结构信息的atp绑定位点预测方法 | |
Amidi et al. | A machine learning methodology for enzyme functional classification combining structural and protein sequence descriptors | |
Mamutov et al. | Electrohydraulic forming of low volume and prototype parts: Process design and practical examples | |
Agovic et al. | Gaussian process topic models | |
Barukab et al. | DNAPred_Prot: identification of DNA-binding proteins using composition-and position-based features | |
LeSar | Materials informatics: an emerging technology for materials development | |
Wang et al. | A multi-objective optimization approach for simultaneously lightweighting and maximizing functional performance of vehicle body structure | |
Sengar | R & D Performance of CSIR-IMTECH (India): A Scientometric Study based on the Papers published during 1991–1995 and 2005–2009 | |
Nalepa | Where machine learning meets smart delivery systems | |
Acharya et al. | Continuum theory and methods for coarse-grained, mesoscopic plasticity | |
Kim | High-cycle fatigue simulation for aluminium alloy using cohesive zone law | |
Kalaitzis et al. | Flexible sampling of discrete data correlations without the marginal distributions | |
Melkikh | The problems of replication in the early stages of evolution: enumeration of variants and spatial configurations of replicators | |
Meroueh | Normal Mode Analysis Theoretical and Applications to Biological and Chemical Systems. | |
WO2004083451A1 (en) | Analysis method | |
Bittracher et al. | Exploring the locking stage of NFGAILS amyloid fibrillation via transition manifold analysis | |
Howe et al. | Protein residue contact prediction using support vector machine | |
Zhang et al. | HiCPlus: resolution enhancement of Hi-C interaction heatmap |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160727 |
|
RJ01 | Rejection of invention patent application after publication |