CN107169312B

CN107169312B - 一种低复杂度的天然无序蛋白质的预测方法

Info

Publication number: CN107169312B
Application number: CN201710388664.3A
Authority: CN
Inventors: 赵加祥; 何昊; 徐微
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2020-05-08
Anticipated expiration: 2037-05-27
Also published as: CN107169312A

Abstract

本发明给出了一种低计算复杂度的天然无序蛋白质的预测方法。该方法针对蛋白质序列的每个残基，计算其香农熵、拓扑熵和三种氨基酸倾向性的加权平均值，利用瑞利熵最大化对天然无序蛋白质区域进行预测。该方案仅使用了5种特征和线性分类器，使其具有较高的运算速度和鲁棒性。仿真结果表明，在相似的预测准确度下，本发明设计的天然无序蛋白质的预测方案与现有的同类型预测方案相比，大大减少了特征个数和计算复杂度。

Description

一种低复杂度的天然无序蛋白质的预测方法

技术领域

本发明属于生物信息学领域，涉及一种高效、低计算复杂度的天然无序蛋白质的预测方案。

背景技术

天然无序蛋白质是指一个蛋白质至少有一个缺少唯一的三维结构且具有动态构象的区域，在药物设计、蛋白质表达和功能注释等方面都有重要的作用。因为研究发现一些天然无序蛋白质参与细胞中的重要调节功能，对阿尔茨海默病、帕金森病与某些癌症等疾病有重要影响。由于无序蛋白质区域提纯和结晶困难，通过实验来测定不但费用高昂且耗时很长。因此，通过计算的方法由蛋白质序列来测定无序区域的研究是十分重要的。

在过去的十数年间，提出了许多无序蛋白质预测方案，大致可分为两类：第一类利用无序蛋白质序列的氨基酸倾向性，第二类利用机器学习的方法。其中，第一类方法十分简单但是准确度不高。第二类方法主要基于人工神经网络和支持向量机，可以得到较高的预测准确度，但是要求计算一系列特征计算复杂度很高。

发明内容

本发明的目的是克服现有技术存在的上述不足，设计一种低复杂度的天然无序蛋白质的预测方法，可以使用少量的特征和计算，得到较高的预测准确度、较快的运算速度和鲁棒性。

本发明提供的低复杂度的天然无序蛋白质的预测方法的具体步骤如下：

(1)针对学习样本DIS数据集，令w表示其中一条蛋白质序列，用长度为N的滑动窗口截取相应长度的连续残基片段进行计算。此时假设w的长度即为N。

(2)计算w的香农熵，公式为：

其中，f_k代表第k种氨基酸在w中出现的频率。

(3)计算拓扑熵：将由20种氨基酸组成的蛋白质序列w映射为0-1序列，其中疏水性氨基酸包括异亮氨酸、亮氨酸和缬氨酸，芳香族氨基酸包括苯丙氨酸、色氨酸和酪氨酸，疏水性氨基酸和芳香族氨基酸被映射为1，其余为0。计算w的拓扑熵：

其中

代表

中长度为n的不同子序列的个数，n满足：

表示

的从l开始的长度为2ⁿ+n-1的连续符号。

(4)对于长度为N的序列w，计算其Remark465，Deleage/Roux以及Bfactor(2STD)三种倾向性尺度的加权平均值：

其中w^p(l),1≤l≤N代表序列w到第p种的倾向性的值。

(5)对于一条长度为L＞N的序列w，将每个滑动窗口计算得到的五个特征值作为一个矢量分配给窗口的每个残基；针对每个残基，累加得到矢量并除以累加次数，得到最终的特征矢量；

截取N长片段w_j＝w(j) w(j+N-1),1≤j≤L-N+1，计算其香农熵、拓扑熵和三种倾向性的加权平均值这五种特征，得到一个5×1矢量v_j:

v_j＝[H_S(w_j) H_top(w_j) M₁(w_j) M₂(w_j) M₃(w_j)]^T (5)

之后计算序列w的特征矩阵F＝[x₁ x₂…x_l…x_L]，其中

(6)利用5-fold交叉验证，训练分类器。将学习样本中的无序残基和有序残基的特征矢量输入分类器进行学习，得到分类器的参数：投影方向W和分类阈值。

计算训练集的特征矩阵：

其中N_s代表训练集中蛋白质序列的个数，F_i代表长度为L_i的第i条蛋白质序列的特征矩阵，1≤i≤N_s。最佳投影方向为：

W＝S_W(m_dis-m_ord) (8)

其中N_dis和N_ord分别代表训练集中无序残基和有序残基的总个数，X_dis和X_ord分别代表所有无序残基和有序残基的特征矩阵，如公式(10)所定义，

和

分别代表X_dis和X_ord中的第j列向量。在W上的投影为Y＝W^TX。通过线性搜索，可以得到在Y上的分类阈值。

本发明的优点和积极效果：

1、本发明仅使用了5种特征和线性分类器，就使天然无序蛋白质的预测方法具有较高的运算速度和鲁棒性。2、仿真结果表明，在相似的预测准确度下，本发明设计的天然无序蛋白质的预测方法与现有的同类型预测方法相比，大大减少了特征个数和计算复杂度。

附图说明

图1：实现本发明预测天然无序蛋白质方法的流程图。

图2：针对PU159数据集，本发明设计的天然无序蛋白质的预测方法与现有的同类型预测方法的预测准确度比较。

图3：针对R80数据集，本发明设计的天然无序蛋白质的预测方法与现有的同类型预测方法的预测准确度比较。

具体实施方式

实施例1：

本发明提供的天然无序蛋白质的预测方法具体步骤如下：

针对一条未判定无序区域的蛋白质序列w(以R80数据集中一条标号为1g4m的蛋白质序列为例)，利用本发明提供的无序蛋白质预测方案进行预测的具体步骤如下：

步骤一：该序列长度为393，用N＝35的滑动窗口对序列进行截取。针对每个窗口区间计算五种特征的值。

序列w＝MGDKGTRVFKKASPNGKLTVYLGKRDFVDHIDLVEPV

针对第一个长度为N的窗口，按照公式(1)(3)(4)，计算窗口所截取的序列片段的五种特征的值，并将这五个值分别赋给片段中的每个残基；之后，滑动窗口，计算从第二个残基开始的长度为N的序列片段的五种特征的值并累加给片段中每个残基；重复上述过程，直至窗口覆盖到最后一个残基。统计序列中每个残基的累加次数，用残基的各个累加的特征的值除以累加次数，得到其最终的特征矢量。

计算得到的序列w的特征矩阵如下，其中每一列为对应该位置残基的特征矢量：

步骤二：利用学习样本计算得到的投影方向和阈值，对X投影和判定，其中35个无序残基有29个被正确判定为无序，358个有序残基有314个被正确判定为有序。

为了验证该预测方法的有效性，利用R80数据集和PU159数据集对该方法进行了天然无序蛋白质的预测。其中，R80数据集中包含80条蛋白质序列，每条蛋白质序列都含有至少一个无序区域；PU159数据集中包含79条完全无序序列和80条完全有序序列。表1中列出了针对PU159数据集，本发明设计的天然无序蛋白质的预测方法与现有的同类型预测方法的预测准确度比较。表2列出了针对R80数据集，本发明设计的天然无序蛋白质的预测方法与现有的同类型预测方法的预测准确度比较。表3列出了各个预测准确度参数的定义，其中TP表示预测正确的无序残基个数，TN表示预测正确的有序残基个数，FN表示原本是无序残基被错判为有序残基的个数，FP表示原本是有序残基被错判为无序残基的个数。

表1

methods	Sens.	Spec.	Prob.Ex.	Mcc
					OurMethod	0.812	0.783	0.596	0.594
DisPSSMP	0.825	0.765	0.590	0.589
					BVDEA	0.796	0.785	0.581	0.586
RONN	0.675	0.888	0.563	0.580
					FoldIndex	0.722	0.815	0.536	0.540
DISOPRED2	0.469	0.981	0.449	0.543
					PONDR	0.632	0.782	0.414	0.420
DISPRO	0.383	0.982	0.365	0.467
					PreLink	0.319	0.991	0.310	0.430

表2

methods	Sens.	Spec.	Prob.Ex.	Mcc
					OurMethod	0.727	0.897	0.624	0.515
DisPSSMP	0.767	0.848	0.615	0.463
					BVDEA	0.817	0.728	0.545	0.451
RONN	0.603	0.878	0.481	0.395
					FoldIndex	0.488	0.811	0.299	0.224
DISOPRED2	0.405	0.972	0.377	0.470
					PONDR	0.557	0.816	0.373	0.278
DISPRO	0.418	0.993	0.411	0.578
					PreLink	0.237	0.947	0.183	0.219

表3

Measures	Equation
		Sens	TP/(TP+FN)
Spec	TN/(TN+FP)
		ProbEx	(TPTN-FPFN)/((TP+FN)(TN+FP))
Mcc	(TPTN-FPFN)/sqrt((TP+FP)(TN+FN)(TP+FN)(TN+FP))

参考文献

1.Jing Y,Marcin JM,Paul LF,Vladimir NU,Lukasz K,RAPID:Fast andaccuratesequence-based prediction of intrinsic disorder content on proteomicscale,Biochimicaet BiophysicaActa,1671-1680,2013.

2.VN Uversky,The mysterious unfoldome:structureless,underappreciated,yet vital part of any given proteome,J.Biomed.Biotechnol,2010.

3.Wright P,Dyson H,Intrinsically unstructured proteins:re-assessingthe protein structure-function paradigm,J.Mol.Biol.,293:321-331,1999.

4.Irem EK,Turgay I,Okan KE,Prediction ofdisorder with newcomputational tool:BVDEA.Expert Systems withApplications,38:14451-14459,2011.

5.Oldfield CJ,Ulrich EL,Cheng Y,Dunker AK,Markley JL,Addressing theintrinsic disorder bottleneck in structural proteomics,Proteins,59:444-453,2005.

6.Jaime P,Clifford EF,Tzviya ZBM,Edwin HR,Orna M,Jacques SB,IsraelSJLS,FoldIndex:a simple tool to predict whether a given protein sequence isintrinsically unfolded,BIOINFORMATICS,21(16):3435-3438,2005.

7.R Linding,RB Russell,V Neduva,TJ Gibson,Globplot:Exploring ProteinSequences for Globularity and Disorder.Nucleic Acids Research,31(13):3701-3708,2003.

8.Ferenc O,Judit O,Proteins without 3D structure:definition,detectionand beyond,BIOINFORMATICS,27(11):1449-1454,2011.

9.K Peng,S Vucetic,P Radivojac,C J Brown,A K Dunker,Z Obradovic,Optimizing LongIntrinsic Disorder Predictors with Protein EvolutionaryInformation,Journal of Bioinformatics and Computational Biology,3(1):35-60,2005.

10.Yang ZR,Thomson R,McNeil P,Esnouf RM,RONN:the bio-basis functionneural network technique applied to the detection of natively disorderedregions in proteins.Bioinformatics Advance Access Published 9,2005.

11.JJ Ward,JS Sodhi,LJ Mcguffin,BF Buxton,DT Jones,Prediction andFunctional Analysis ofNative Disorder in Proteins from the Three KingdomsofLife.J.Mol.Biol.,337:635-645,2004.

12.Su C,Chen C,Ou Y,Protein disorder prediction by condensed pssmconsidering propensity for order or disorder,BMC Bioinformatics,307-319,2006.

13.Ishida T,Kinoshita K,Prediction of disordered regions in proteinsbased on the meta approach,Bioinformatics 24:1344-1348,2008.

14.Schlessinger A,Improved disorder prediction by combination oforthogonal approaches,PLoS One,4:4433,2009.

15.Cheng J,Sweredoski MJ,Baldi P,Accurate prediction of proteindisordered regions by mining protein structure data,Data Mining and KnowledgeDiscovery,11:213-222,2005.

16.Weathers EA,Paulaitis ME,Woolf TB,Hoh JH,Reduced amino acidalphabet is sufficient to accurately recognize intrinsically disorderedprotein,FEBS Letters,576:348-352,2004.

17.David K,Topological entropy of DNA sequences.Bioinformatics,27(8):1061-1067,2011.

18.Mika S,Ratsch G,Weston J,Scholkoph B,Mullers KR,Fisherdiscriminant analysis with kernels,Neural Networks for Signal Processing,1999.

19.Kohavi,Ron,A study ofcross-validation and bootstrap for accuracyestimation and model selection.Proceedings of the Fourteenth InternationalJoint Conference on Artificial Intelligence,San Mateo,CA:Morgan Kaufmann,2(12):1137-1143,1995.

20.Uversky VN,Gillespie JR,Fink AL,Why are"natively unfolded"proteinsunstructured under physiologic conditions,Proteins 41:415-427,2000.