CN101630346A - 基于支持向量机的蛋白质与核酸相互作用在线预报方法 - Google Patents

基于支持向量机的蛋白质与核酸相互作用在线预报方法 Download PDF

Info

Publication number
CN101630346A
CN101630346A CN200910053871A CN200910053871A CN101630346A CN 101630346 A CN101630346 A CN 101630346A CN 200910053871 A CN200910053871 A CN 200910053871A CN 200910053871 A CN200910053871 A CN 200910053871A CN 101630346 A CN101630346 A CN 101630346A
Authority
CN
China
Prior art keywords
protein
nucleic acid
data
vector machine
protein sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910053871A
Other languages
English (en)
Inventor
袁友浪
陆文聪
刘亮
钮冰
彭淳容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN200910053871A priority Critical patent/CN101630346A/zh
Publication of CN101630346A publication Critical patent/CN101630346A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于支持向量机对蛋白质与核酸相互作用在线预报方法,该方法包括如下步骤:1.建立蛋白质序列数据集的训练样本集;2.蛋白质序列数据集转换;3.支持向量机训练生成的蛋白质特征数据集;4.需要预报蛋白质序列的读入、数据转换及蛋白质与核酸相互作用分类类型在线预报。该方法能实现对未测出是否与核酸作用的蛋白质是否与核酸作用,验证结果表明,对与rRNA、RNA、DNA作用蛋白质的10折交叉验证预报准确率分别达到93.75%、83.41%、81.85%。外部测试集验证所得模型分别有93.8%、84.2%、81.9%的预测正确率,在线预报时,用户只需在预报网页界面提供要预报的蛋白质序列,对其数据转换,完成支持向量机的训练和目标类型的预报,输出预报结果。

Description

基于支持向量机的蛋白质与核酸相互作用在线预报方法
技术领域
本发明涉及一种基于支持向量机的蛋白质与核酸(DNA-,RNA-,rRNA-)相互作用分类类型在线预报的实现方法。属于生物信息学领域。
背景技术
与核酸作用的蛋白质在基因功能的许多方面扮演着极其重要的角色。与DNA作用的蛋白质在转录、包装、重排、修复等各种过程都起到了关键作用。与RNA作用的蛋白质则在蛋白合成过程中通过和各种RNAs作用来控制合成过程。因此,与核酸作用的蛋白质在过去三十年来受到广泛兴趣。自人类基因组计划以来,已测定的蛋白质序列逐渐增多,蛋白质各种数据资源急剧膨胀。而用实验方法来确定蛋白质和核酸相互作用将十分耗时且相当昂贵。因此在生物信息学领域,与核酸作用蛋白质的预测逐渐受到关注。有必要发展可靠的方法来预测蛋白质与核酸相互作用。
经检索,未发现利用支持向量机对蛋白质与DNA、RNA、rRNA相互作用分类类型综合在线预报的报道,但有相关文献。2006年Cai等发表的“Predicting rRNA-,RNA-,and DNA-bindingproteins from primary structure with support vector machines”(Yu,X.-J.,Cao,J.-P.,Cai,Y.-D.,Shi,T.-L.,Li,Y.-X..Journal of theoretical biology.[J],2006,240(2):175-184.)在以前研究的基础上(Cai,C.-Z.,Han,L.-Y.,Ji,Z.-L.;Chen,X.,Chen,Y.-Z..Nucl.Acids Res.[J],2003,31(13):3692-3697.)以蛋白质序列氨基酸组成和物理化学性质作为参数,用支持向量机建模分类。预测与rRNA,RNA,DNA作用蛋白质,其10折交叉验证的正确率分别为84%,78%,72%;但该文献只是实现离线预测,其他研究人员特别是生物实验人员不能使用。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于支持向量机的蛋白质与核酸相互作用在线预报方法。该方法利用支持向量机分类技术在特征映射方法的突出优点,实现蛋白质与rRNA,RNA,DNA相互作用分类类型在线预报,还能提高其预报准确率,为实验工作者提供有益参考。
为了达到上述目的,本发明的技术解决方案如下:上述基于支持向量机对蛋白质与核酸相互作用在线预报方法包括如下步骤:
(1)、建立蛋白质序列数据集的训练样本:从互联网上蛋白质数据库SWISS-PROT采集构建蛋白质序列数据集的训练样本,该蛋白质序列数据集的训练样本包括与DNA作用蛋白质数据集、与RNA作用蛋白质数据集、与rRNA作用蛋白质数据集,并且根据需要可以添加或更新数据集,上述数据集分别包含两类:一类是与DNA、RNA、rRNA作用蛋白质的序列;另一类是不与DNA、RNA、rRNA作用蛋白质的序列。
(2)、蛋白质序列数据集转换:将上述步骤(1)得到的蛋白质序列数据集转换成可用于模型训练的特征数据集。即对蛋白质序列数据集中的每个蛋白质序列转换成由氨基酸组成和氨基酸物理化学性质所构成的132个特征集。对于每个蛋白序列,特征向量是由氨基酸序列位置的代码描述及计算性的取代基性质,包括憎水值、预测的二级结构、预测的溶剂可及性及标准范德华体积、极性、极化率。
(3)、用支持向量机学习训练蛋白质序列数据集:用支持向量机(SVM)训练的实质是利用支持向量机对上述步骤(2)生成的蛋白质特征数据集进行学习训练,得到支持向量机的蛋白质与核酸相互作用分类类型模型。
(4)、需要预报蛋白质序列的读入及其数据转换,蛋白质与核酸相互作用分类类型在线预报:利用通过J2EE规范编写的Servlet组件读入Web客户端提交蛋白质序列数据后,Servlet组件先调用验证组件对用户提交数据进行检测,确定是否有效数据。若为无效数据,告知可能原因。若为有效数据,调用预报器组件并使其完成初始化,再调用数据转换器组件对蛋白质序列数据转换为132维的特征数据集。然后,输入到预报器组件进行预报。最后,Servlet组件返回给Web客户端预报结果。
上述步骤(4)蛋白质与核酸相互作用分类类型在线预报,其具体步骤如下:
(4-1)、用J2EE规范编写Servlet组件,将Web客户端要预报蛋白质序列读入并在线对其数据转换;
(4-2)、用户通过支持向量机预报器组件协同蛋白质与核酸相互作用分类模型器预报蛋白质是否与核酸相互作用;
(4-3)、调用上面的Servlet组件,将步骤4-2获得的蛋白质与核酸相互作用分类类型预报结果输出到Web客户端在线页面上显示。
本发明的基于支持向量机的蛋白质与核酸作用在线预报方法与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:1.准确性高。该方法能够准确实现对未知与核酸作用的蛋白质是否与核酸作用。验证结果表明,对与rRNA、RNA、DNA作用蛋白质的10折交叉验证预报准确率分别达到93.75%、83.41%、81.85%。外部测试集验证所得模型分别有93.8%、84.2%、81.9%的预测正确率。2.预报时间短。每一轮预报的计算时间视要预报的蛋白质序列的长度而定。一般在2分钟左右。这远远小于通过实验手段来测定蛋白质是否与核酸相互作用的时间。3.成本低。该发明需利用现有已知与核酸作用蛋白质作为训练集建立模型,这可以通过国际上一些免费蛋白质数据库获得,无须其他设备和费用。4.方便快捷。在线预报时,用户只需在预报网页界面提供要预报的蛋白质序列。通过对该蛋白质序列的数据转换,完成支持向量机的训练和目标类型的预报,就可以输出预报结果。
附图说明:
图1本发明的基于支持向量机的蛋白质与核酸作用在线预报方法的流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
如图1所示,上述基于支持向量机对蛋白质与核酸相互作用在线预报方法包括如下步骤:
(1)、建立蛋白质序列数据集的训练样本:从互联网上蛋白质数据库SWISS-PROT采集构建蛋白质序列数据集的训练样本,该蛋白质序列数据集的训练样本包括与DNA作用蛋白质数据集、与RNA作用蛋白质数据集、与rRNA作用蛋白质数据集,并且根据需要可以添加或更新数据集,上述数据集分别包含两类:一类是与DNA、RNA、rRNA作用蛋白质的序列;另一类是不与DNA、RNA、rRNA作用蛋白质的序列。具体分布如下表1:
表1各类蛋白在蛋白质序列数据集中的分布
  数据集   与核酸作用   不与核酸作用
  DNA   4694   9222
  RNA   2063   4023
  rRNA   586   1042
(2)、蛋白质序列数据集转换:将上述步骤(1)得到的蛋白质序列数据集转换成可用于模型训练的特征数据集。即对蛋白质序列数据集中的每个蛋白质序列转换成由氨基酸组成和氨基酸物理化学性质所构成的132个特征向量。对于每个蛋白序列,特征向量是由氨基酸序列位置的代码描述及计算性的取代基性质,包括憎水值、预测的二级结构、预测的溶剂可及性及标准范德华体积、极性、极化率。
(3)、支持向量机训练,利用生成的蛋白质训练数据集:用机器学习方法支持向量机(SVM)训练的实质是利用生成的蛋白质训练数据集,对上述步骤(2)中可用于模型训练的特征数据集用支持向量机预报器进行学习训练,输出支持向量机的蛋白质与核酸相互作用分类类型模型,利用该模型能复现训练数据的输入输出关系。
本发明的建模方法支持向量机方法,是用java编程语言实现的SVM算法。本发明采用多项式形式的核函数(Polynomial Kernel Function,PKF),即K(x,xi)=[(xTxi)+1]q,对应SVM是一个q阶多项式分类器。
(4)、需要预报蛋白质序列的读入及其数据转换,蛋白质与核酸相互作用分类类型在线预报,其具体步骤如下:
(4-1)、用J2EE规范编写Servlet组件,将Web客户端要预报蛋白质序列读入并在线对其数据转换;Web客户端提交蛋白质序列数据后,Servlet组件调用验证组件对用户提交蛋白质序列数据进行检测,确定是否有效数据。若为无效数据,告知原因。若为有效数据,调用预报器组件并使其完成初始化,再从Servlet组件调用数据转换器组件对蛋白质序列数据转换为132维的向量表示。该132维的向量分别由蛋白质氨基酸组成和蛋白质氨基酸物理化学性质构成。然后读入到预报器组件在线进行预报。
(4-2)、用户通过支持向量机预报器组件协同蛋白质与核酸相互作用分类模型器预报蛋白质是否与核酸相互作用;进行蛋白质与核酸作用的分类预报时,预报器从磁盘介质中读取是否与核酸作用的蛋白质分类模型文件,载入模型完成初始化。输入由数据转换器输出的数据,载入的蛋白质与核酸作用分类模型对此数据进行处理,获得该蛋白质是否与核酸(DNA、RNA、rRNA)相互作用分类信息的预报结果,输出。
(4-3)、调用上面的Servlet组件,将步骤(4-2)获得的蛋白质与核酸相互作用分类类型预报结果输出到Web客户端在线页面上显示。

Claims (3)

1、一种基于支持向量机对蛋白质与核酸相互作用在线预报方法,其特征在于该方法包括如下步骤:
(1)、建立蛋白质序列数据集的训练样本:从互联网上蛋白质数据库SWISS-PROT采集构建蛋白质序列数据集的训练样本,该蛋白质序列数据集的训练样本包括与DNA作用蛋白质数据集、与RNA作用蛋白质数据集、与rRNA作用蛋白质数据集,并且根据需要可以添加或更新数据集,上述数据集分别包含两类:一类是与DNA、RNA、rRNA作用蛋白质的序列,另一类是不与DNA、RNA、rRNA作用蛋白质的序列;
(2)、蛋白质序列数据集转换:将上述步骤(1)得到的蛋白质序列数据集转换成可用于模型训练的蛋白质特征数据集,即对蛋白质序列数据集中的每个蛋白质序列转换成由氨基酸组成和氨基酸物理化学性质所构成的132个特征集,对于每个蛋白序列,特征集是由氨基酸序列位置的代码描述及计算性的取代基性质,包括憎水值、预测的二级结构、预测的溶剂可及性及标准范德华体积、极性、极化率;
(3)、用支持向量机学习训练蛋白质序列数据集:用支持向量机(SVM)学习训练的实质是利用支持向量机对上述步骤(2)生成的蛋白质特征数据集进行学习训练,得到支持向量机的蛋白质与核酸相互作用分类类型模型;
(4)、需要预报蛋白质序列的读入、数据转换及其蛋白质与核酸相互作用分类类型在线预报:利用通过J2EE规范编写的Servlet组件读入Web客户端提交蛋白质序列数据后,Servlet组件先调用验证组件对用户提交数据进行检测,确定是否有效数据,若为无效数据,告知可能原因,若为有效数据,调用预报器组件并使其完成初始化,再调用数据转换器组件对蛋白质序列数据转换为132维的特征数据集,最后,输入到预报器组件进行预报。
2、根据权利要求1所述的基于支持向量机对蛋白质与核酸相互作用在线预报方法,其特征在于,上述步骤(4)需要预报蛋白质序列的读入、数据转换及其蛋白质与核酸相互作用分类类型在线预报,其具体步骤如下:
(4-1)、用J2EE规范编写Servlet组件,从Web客户端读入预报蛋白质序列并在线对其数据转换;
(4-2)、用户通过支持向量机预报器组件协同蛋白质与核酸相互作用分类模型器预报蛋白质是否与核酸相互作用;
(4-3)、调用上面的Servlet组件,将步骤(4-2)获得的蛋白质与核酸相互作用分类类型预报结果输出到Web客户端在线页面上显示。
3、根据权利要求3所述的基于支持向量机对蛋白质与核酸相互作用在线预报方法,其特征在于,上述步骤(4-2)用户通过支持向量机预报器组件协同蛋白质与核酸相互作用分类模型预报蛋白质是否与核酸相互作用,其具体步骤:进行蛋白质与核酸作用的分类预报时,预报器组件从磁盘介质中读取是否与核酸作用的蛋白质分类模型文件,载入模型完成初始化,读入由数据转换器输出的数据,载入的蛋白质与核酸作用分类模型对此数据进行处理,获得该蛋白质是否与核酸(DNA、RNA、rRNA)相互作用分类信息的预报结果,输出。
CN200910053871A 2009-06-26 2009-06-26 基于支持向量机的蛋白质与核酸相互作用在线预报方法 Pending CN101630346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910053871A CN101630346A (zh) 2009-06-26 2009-06-26 基于支持向量机的蛋白质与核酸相互作用在线预报方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910053871A CN101630346A (zh) 2009-06-26 2009-06-26 基于支持向量机的蛋白质与核酸相互作用在线预报方法

Publications (1)

Publication Number Publication Date
CN101630346A true CN101630346A (zh) 2010-01-20

Family

ID=41575451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910053871A Pending CN101630346A (zh) 2009-06-26 2009-06-26 基于支持向量机的蛋白质与核酸相互作用在线预报方法

Country Status (1)

Country Link
CN (1) CN101630346A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708269A (zh) * 2011-10-24 2012-10-03 西北师范大学 基于支持向量机预测胞浆型磷脂酶A2α抑制剂的抑制浓度的方法
CN103473483A (zh) * 2013-10-07 2013-12-25 谢华林 一种蛋白质结构与功能的在线预测方法
CN105447340A (zh) * 2015-07-21 2016-03-30 郑州轻工业学院 一种蛋白质亚叶绿体多位置预测方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708269A (zh) * 2011-10-24 2012-10-03 西北师范大学 基于支持向量机预测胞浆型磷脂酶A2α抑制剂的抑制浓度的方法
CN102708269B (zh) * 2011-10-24 2016-05-25 西北师范大学 基于支持向量机预测胞浆型磷脂酶A2α抑制剂的抑制浓度的方法
CN103473483A (zh) * 2013-10-07 2013-12-25 谢华林 一种蛋白质结构与功能的在线预测方法
CN105447340A (zh) * 2015-07-21 2016-03-30 郑州轻工业学院 一种蛋白质亚叶绿体多位置预测方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN106778065B (zh) * 2016-12-30 2019-02-01 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Similar Documents

Publication Publication Date Title
CN111696624B (zh) 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
Chen et al. Comprehensive review and assessment of computational methods for predicting RNA post-transcriptional modification sites from RNA sequences
Xiao et al. iROS-gPseKNC: predicting replication origin sites in DNA by incorporating dinucleotide position-specific propensity into general pseudo nucleotide composition
Zou et al. Accurate prediction of bacterial type IV secreted effectors using amino acid composition and PSSM profiles
Yi et al. RPI-SE: a stacking ensemble learning framework for ncRNA-protein interactions prediction using sequence information
CN109817275B (zh) 蛋白质功能预测模型生成、蛋白质功能预测方法及装置
CN101630346A (zh) 基于支持向量机的蛋白质与核酸相互作用在线预报方法
Pullin et al. A comparison of marker gene selection methods for single-cell RNA sequencing data
CN103473483A (zh) 一种蛋白质结构与功能的在线预测方法
Zhang et al. Gene prediction in metagenomic fragments with deep learning
Morales et al. Deep learning for the classification of genomic signals
Luo et al. DLm6Am: A deep-learning-based tool for identifying N6, 2′-O-dimethyladenosine sites in RNA sequences
Wu et al. Recognizing binding sites of poorly characterized RNA-binding proteins on circular RNAs using attention Siamese network
Ammunét et al. Deep learning tools are top performers in long non-coding RNA prediction
Nabi et al. Discovering misannotated lncRNAs using deep learning training dynamics
CN103310126A (zh) 分类模型的建立方法及装置
Tsukiyama et al. Cross-attention PHV: Prediction of human and virus protein-protein interactions using cross-attention–based neural networks
CN114328808A (zh) 地址模糊匹配方法、地址处理方法、装置和电子设备
Zhou et al. Prediction of TF-binding site by inclusion of higher order position dependencies
JP2019133218A (ja) 帳票対応システム、帳票対応方法及び帳票対応プログラム
Kong et al. ProALIGN: Directly learning alignments for protein structure prediction via exploiting context-specific alignment motifs
Cao et al. Multi-omics integration and regulatory inference for unpaired single-cell data with a graph-linked unified embedding framework
CN111723165A (zh) 地址兴趣点确定方法、装置及系统
CN114416524B (zh) 文件错误的定位方法及装置
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100120