CN101710364A - 一种蛋白质与rna相互作用位点计算识别方法 - Google Patents

一种蛋白质与rna相互作用位点计算识别方法 Download PDF

Info

Publication number
CN101710364A
CN101710364A CN200910191887A CN200910191887A CN101710364A CN 101710364 A CN101710364 A CN 101710364A CN 200910191887 A CN200910191887 A CN 200910191887A CN 200910191887 A CN200910191887 A CN 200910191887A CN 101710364 A CN101710364 A CN 101710364A
Authority
CN
China
Prior art keywords
protein
interaction sites
rna interaction
amino acid
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910191887A
Other languages
English (en)
Inventor
梁桂兆
马秀岩
赵巍
杨力
梅虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN200910191887A priority Critical patent/CN101710364A/zh
Publication of CN101710364A publication Critical patent/CN101710364A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种蛋白质与RNA相互作用位点计算识别方法,包括如下步骤:a)基于主成分分析方法,建立蛋白质结构表征方法-氨基酸二维性质得分;b)用氨基酸二维性质得分表征蛋白质与RNA相互作用位点的结构特征;c)用遗传算法挑选同蛋白质与RNA相互作用位点密切相关的特征参数;d)应用径向基核支持向量机建立蛋白质与RNA相互作用位点识别模型,分别以自取代检验,留1/5法交互检验以及外部检验三种方法验证模型的预测能力。该方法可用于蛋白质与RNA相互作用位点预测及特异性分析,对于深入理解基因表达调节、蛋白质合成及许多病毒复制与装配等过程至关重要。

Description

一种蛋白质与RNA相互作用位点计算识别方法
技术领域
本发明涉及一种生物大分子相互作用识别方法,特别是一种蛋白质与RNA相互作用位点计算识别方法。
背景技术
蛋白质-RNA相互作用在众多生物活动中担任重要角色,涉及基因表达调节、蛋白质合成及许多病毒复制与装配等过程(Noller,Science,2005,309:1508)。计算识别蛋白质与RNA相互作用对于设计生物学实验并解析两者相互作用特征,深入理解蛋白质如何识别RNA至关重要。然而,蛋白质与RNA相互作用位点预测却是近几年才开始的。主要原因是已经测得蛋白质和RNA复合体结构数量较少。目前发展的方法有神经网络(Jeong et al.,Genome Inform.Ser.Workshop Genome Inform.,2004,15:105),贝叶斯统计计算方法(Terribilini.RNA,2006,12(1):1),支持向量机(Wang et al.,Nucleic Acids Res.,2006,Web ServerIssue,W243)等。
但现有的识别方法都存在无法同时获得较高灵敏度和特异性的问题,并且预测正确率仍然不高(Terribilini et al.,RNA,2006 12:1450;Nucleic AcidsResearch,2007,35(5):1),因此有必要开发具有较高灵敏度、特异度和预测正确率的蛋白质与RNA相互作用位点识别方法。
发明内容
有鉴于此,为了解决上述问题,本发明提供了一种蛋白质与RNA相互作用位点计算识别方法,其可用于蛋白质与RNA相互作用位点预测及特异性分析。
本发明的目的是这样实现的:一种蛋白质与RNA相互作用位点计算识别方法,包括如下步骤:
a)具体包括a1)精选20种氨基酸的640种二维性质参数;a2)对640种性质参数做主成分分析,得到12个主成分;a3)计算各主成分得分,建立氨基酸二维性质得分;
b)用氨基酸二维性质得分表征蛋白质与RNA相互作用位点的结构特征,其中的每个氨基酸用12个氨基酸二维性质得分表征;
c)用遗传算法挑选同蛋白质与RNA相互作用位点特征密切相关的性质参数,并作为模型的输入变量;
d)应用径向基核支持向量机建立蛋白质与RNA相互作用位点识别模型,以自取代检验,留1/5法交互检验以及外部检验验证模型的预测能力,将每个样本的输入变量带入模型并计算识别蛋白质与RNA相互作用位点。
本发明的一种蛋白质与RNA相互作用位点计算识别方法,其中选取的氨基酸二维性质得分所含信息量大、表征能力强、拓展性能好及操作简便;遗传算法可以很好地挑选同蛋白质与RNA相互作用位点特征密切相关的性质参数;径向基核支持向量机通过核函数技术,可以有效的防止模型的过拟合,并具有良好的泛化性能;采用的自取代检验,留1/5法交互检验及外部检验验证方法可以较大程度地保证所建方法的预测能力。
本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。
具体实施方式
以下对采用本发明的方法用于蛋白质与RNA相互作用位点识别为例进行详细的描述,包括以下步骤:
a)精选20种天然氨基酸的640种二维性质参数,包括:分子电性作用矢量,分子电距矢量和全息分子电距矢量,拓扑,拓扑电荷指数,运转和路径数目,边缘邻接指数,Burden特征值,自相关,连接性指数,信息指数和特征值指数。
表1 20种天然氨基酸的640种二维性质参数的12个主成分得分
Figure G2009101918876D00031
a20种天然氨基酸用常规的单个英文字母表示。
采用主成分分析处理640种性质参数,得到12个主成分,其累计解释原始数据矩阵(20×640)95.84%的方差,其主成分得分见表1,因此,可用此12个主成分得分矩阵(20×12)代替原始变量矩阵(20×640)。为方便,称此12个主成分得分为氨基酸二维性质得分,因为此12个得分综合了640种性质参数的大部分信息,因此,可将其用于肽或蛋白质结构表征。
b)用氨基酸二维性质得分表征蛋白质与RNA相互作用位点的结构特征,其中的每个氨基酸用12个氨基酸二维性质得分表征;
选择147条RNA结合的蛋白质链(Terribilini et al.,Nucleic Acids Research,2007,35(5):1),该数据集总共包括6517个RNA结合残基和26167个非结合残基。为了分析作用位点的相邻残基影响,这里使用经典移动窗口编码策略进行取样,选择11肽序列来表征蛋白质和RNA相互作用位点特征。为进一步验证模型预测性能,将样本按照1∶1划分训练集和外部验证测试集,并且训练集和测试集中的正负样本比例也为1∶1,11-肽序列中的每个氨基酸残基用12个氨基酸二维性质得分表征,这样,每个11-肽序列以11×12=132个变量表征。
c)用遗传算法挑选同蛋白质与RNA相互作用位点特征密切相关的性质参数,并作为模型的输入变量;
经比较,以132个原始自变量作为支持向量机的输入,无论建模还是外部预测效果都较差,因此用遗传算法(Hasegawa et al.,J Chem.Inf.Comput.Sci.,1997,37:306)挑选同蛋白质与RNA相互作用位点密切相关的特征,挑选出36个变量,作为模型的输入变量。
d)应用径向基核支持向量机建立蛋白质与RNA相互作用位点识别模型,以自取代检验,留1/5法交互检验以及外部检验验证模型的预测能力,将每个样本的输入变量带入模型并计算识别蛋白质与RNA相互作用位点。
以挑选出的36个变量作为输入,用径向基核支持向量机建立蛋白质与RNA相互作用位点识别模型,用格点搜索法确定支持向量机参数,然后用自取代检验,留1/5法交互检验验证模型的内部预测能力,用对测试集的外部预测结果评价模型的外部预测能力。
分别定义Acc为计算识别正确样本数目所占总样本数目百分比,Sp为识别正确的蛋白质与RNA相互作用位点样本数目的百分比,Sn为预测正确的非蛋白质与RNA相互作用位点样本数目的百分比,MCC为马休斯相关系数。当支持向量机参数C和γ分别为256和0.0098时,将每个样本的输入变量带入模型并计算预测,统计结果显示,自取代检验的Acc,Sn,Sp及MCC分别为92.30,86.40,79.20及0.681,留1/5法交互检验的Acc,Sn,Sp及MCC分别为85.11,79.70,77.99及0.592,外部预测检验的Acc,Sn,Sp及MCC分别为80.91,75.6,74.33及0.512。结果显示,所建模型具有较高的预测识别能力,对蛋白质和RNA相互作用位点识别具有较高的预测正确率、灵敏度和特异度,同时,经比较,外部预测的MCC为0.512,远远高于Terribilini等(RNA,200612:1450;NucleicAcids Research,2007,35(5):1)报道的结果(MCC=0.350)。有四个原因可解释为什么本方法具有较高的识别正确率,一是氨基酸二维性质得分具有良好的蛋白质信息表达能力;二是遗传算法可以很好的选择同蛋白质与RNA相互作用位点特征密切相关的结构参数;三是支持向量机具有良好的拟合和泛化能力;四是所采用的三种检验方法可以最大限度地保证方法的预测识别能力。
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (1)

1.一种蛋白质与RNA相互作用位点计算识别方法,其特征在于包括如下步骤:
a)具体包括a1)精选20种天然氨基酸的640种二维性质参数;a2)对640种性质参数做主成分分析,得到12个主成分;a3)计算各主成分得分,建立氨基酸二维性质得分;
b)用氨基酸二维性质得分表征蛋白质与RNA相互作用位点的结构特征,其中的每个氨基酸用12个氨基酸二维性质得分表征;
c)用遗传算法挑选同蛋白质与RNA相互作用位点特征密切相关的性质参数,并作为模型的输入变量;
d)用径向基核支持向量机建立蛋白质与RNA相互作用位点识别模型,以自取代检验,留1/5法交互检验以及外部检验验证模型的预测能力,将每个样本的输入变量带入模型并计算识别蛋白质与RNA相互作用位点。
CN200910191887A 2009-12-14 2009-12-14 一种蛋白质与rna相互作用位点计算识别方法 Pending CN101710364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910191887A CN101710364A (zh) 2009-12-14 2009-12-14 一种蛋白质与rna相互作用位点计算识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910191887A CN101710364A (zh) 2009-12-14 2009-12-14 一种蛋白质与rna相互作用位点计算识别方法

Publications (1)

Publication Number Publication Date
CN101710364A true CN101710364A (zh) 2010-05-19

Family

ID=42403150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910191887A Pending CN101710364A (zh) 2009-12-14 2009-12-14 一种蛋白质与rna相互作用位点计算识别方法

Country Status (1)

Country Link
CN (1) CN101710364A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138866A (zh) * 2015-08-12 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN111554351A (zh) * 2020-04-26 2020-08-18 深圳市儒翰基因科技有限公司 病毒识别的方法、终端及存储介质
CN114023376A (zh) * 2021-11-02 2022-02-08 四川大学 基于自注意力机制的rna-蛋白质结合位点预测方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138866A (zh) * 2015-08-12 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN111554351A (zh) * 2020-04-26 2020-08-18 深圳市儒翰基因科技有限公司 病毒识别的方法、终端及存储介质
CN114023376A (zh) * 2021-11-02 2022-02-08 四川大学 基于自注意力机制的rna-蛋白质结合位点预测方法和系统
CN114023376B (zh) * 2021-11-02 2023-04-18 四川大学 基于自注意力机制的rna-蛋白质结合位点预测方法和系统

Similar Documents

Publication Publication Date Title
CN106599615B (zh) 一种预测miRNA靶基因的序列特征分析方法
Wiens et al. Phylogenetic analysis and intraspecific variation: performance of parsimony, likelihood, and distance methods
CN106650314A (zh) 预测氨基酸突变的方法及系统
CN112837747B (zh) 基于注意力孪生网络的蛋白质结合位点预测方法
CN111863121A (zh) 一种基于图卷积神经网络的蛋白质自相互作用预测方法
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
CN101710364A (zh) 一种蛋白质与rna相互作用位点计算识别方法
CN107194207A (zh) 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
Wang et al. Inferring protein-protein interacting sites using residue conservation and evolutionary information
CN109801681B (zh) 一种基于改进的模糊聚类算法的snp选择方法
CN101846658B (zh) 一种寡核苷酸色谱保留时间预测方法
Paul et al. Identification of weak motifs in multiple biological sequences using genetic algorithm
CN105046106B (zh) 一种用最近邻检索实现的蛋白质亚细胞定位预测方法
Wade et al. eQTLs are key players in the integration of genomic and transcriptomic data for phenotype prediction
Fan et al. Phylogenomic, morphological, and niche differentiation analyses unveil species delimitation and evolutionary history of endangered maples in Acer series Campestria (Sapindaceae)
CN113539364B (zh) 一种深度神经网络框架预测蛋白质磷酸化的方法
Tang et al. Early history of the angiosperms
CN115295079A (zh) 基于元图学习的长链非编码rna亚细胞定位预测方法
CN110444249B (zh) 一种基于计算的预测荧光蛋白质的方法
CN113837293A (zh) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
CN113257341A (zh) 一种基于深度残差网络的蛋白质残基间距离分布预测方法
CN113362898A (zh) 一种融合多种序列频率信息识别rna亚细胞定位方法
CN115240775B (zh) 基于stacking集成学习策略的Cas蛋白预测方法
CN113450872B (zh) 磷酸化位点特异激酶的预测方法
Zhang et al. Genomic divergence between two sister Ostrya species through linked selection and recombination

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20100519