CN105808975A

CN105808975A - 基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法

Info

Publication number: CN105808975A
Application number: CN201610145079.6A
Authority: CN
Inventors: 於东军; 胡俊; 李阳; 沈红斌; 杨静宇
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2016-07-27

Abstract

本发明提供一种基于多核学习与Boosting算法的蛋白质‑DNA绑定位点预测方法，包括下列步骤：特征提取，抽取每个氨基酸残基的进化信息特征向量与溶剂可及性特征向量；特征融合，使用基于线性核的多核学习算法对上述两个特征向量的权重信息进行评估，并根据权重进行加权串行组合得到最终的样本特征向量；使用随机下采样技术对非绑定位点的样本进行多次下采样，将下采样得到的非绑定位点样本子集与绑定位点样本集合并后训练一个SVM，得到多个SVM预测模型；使用Boosting提升算法将上述多个SVM模型进行集成，形成一个最终的预测模型。该方法提升了模型的可解释性并有效的降低训练集的规模，而且也提高了模型的预测精度。

Description

基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法

技术领域

本发明涉及生物信息学预测蛋白质-DNA相互作用领域，具体而言涉及一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法。

背景技术

蛋白质与DNA之间的交互作用在生命活动中是屡见不鲜的，它广泛存在于大量的生命体中。这种交互作用在生命活动中起到了至关重要的作用，例如：生命活动中的DNA复制、DNA转录以及DNA表达等活动大多数都需要蛋白质与DNA之间的协作才能顺利完成。这种交互作用通常表现为DNA绑定蛋白质中的某些固定残基(即DNA绑定位点)，使得DNA可以与蛋白质共同完成某项生命活动。蛋白质中的DNA绑定位点往往也是某些药物的重要靶点。想要彻底弄清楚生命活动的过程，尤其是有关DNA生命活动的细节，快速、精确地定位蛋白质序列中的蛋白质-DNA绑定位点具有重要生物学意义。

然而，通过生物实验的方法来确定蛋白质中的DNA绑定位点需要耗费大量的时间和资金，并且效率较低；而且，随着测序技术的飞速发展和人类结构基因组的不断推进，蛋白质组学中已经累积了大量未进行DNA绑定位点标定的蛋白质序列。因此应用生物信息学的相关知识，直接从蛋白质序列出发，研发一种能够快速且准确预测蛋白质中的DNA绑定位点的智能方法有着迫切需求，且对于发现和认识蛋白质结构、生理功能以及有关DNA生命活动的细节都有着重大的意义。

目前，针对基于序列信息的蛋白质-DNA绑定位点的高精度预测模型还很欠缺。通过查阅相关文献，可以发现，目前专门设计来进行基于序列信息的蛋白质-DNA绑定位点预测的计算模型有：DISIS、DNABindR、BindN、BindN-rf、DP-Bind以及MetaDBSite等。其中DISIS(Ofran Y,Mysore V,Rost B.Prediction of DNA-binding residues from sequence[J].Bioinformatics,2007,23(13):i347-i353.)使用了支持向量机与神经网络的预测算法，并结合蛋白质的进化信息、蛋白质二级结构预测信息以及蛋白质溶剂可及性预测信息视角特征进行蛋白质序列中的DNA绑定位点预测。Ofran Y等人还提供了在线的DISIS服务系统(http://cubic.bioc.columbia.edu/services/disis)用于帮助相关学者预测蛋白质中的DNA绑定位点。DNABindR(Yan C,Terribilini M,Wu F,et al.Predicting DNA-binding sites of proteins fromamino acid sequence[J].BMC bioinformatics,2006,7(1):1.)使用朴素贝叶斯分类器结合蛋白质相对的溶剂可及性信息、序列信息熵、二级结构信息、静电位信息以及疏水性信息五个视角特征进行DNA绑定位点预测，并提供了在线服务系统：http://turing.cs.iastate.edu/PredDNA/predict.html。Wang L等人提出了两种蛋白质-DNA绑定位点预测系统：BindN(Wang L,Brown S J.BindN:a web-based tool for efficient prediction of DNAand RNA binding sites in amino acid sequences[J].Nucleic acids research,2006,34(suppl 2):W243-W248.)与BindN-rf(Wang L,Yang M Q,Yang J Y.Prediction of DNA-binding residuesfrom protein sequence information using random forests[J].Bmc Genomics,2009,10(1):1.)。BindN与BindN-rf分别使用了支持向量机与随机森林两种不同的预测算法。DP-Bind(Hwang S,Gou Z,Kuznetsov I B.DP-Bind:a web server for sequence-based prediction of DNA-bindingresidues in DNA-binding proteins[J].Bioinformatics,2007,23(5):634-636.)使用了支持向量机、核逻辑斯特回归(Kernel logistic regression)以及惩罚逻辑斯特回归(Penalized logisticregression)三个预测算法，并结合基于序列的BLOSUM62信息与进化信息视角特征进行蛋白质序列中的DNA绑定位点预测。MetaDBSite(Si J,Zhang Z,Lin B,et al.MetaDBSite:a metaapproach to improve protein DNA-binding sites prediction[J].BMC systems biology,2011,5(Suppl1):S7.)是一个预测蛋白质-DNA绑定位点的合成系统，它是将DISIS、DP-Bind、DNABindR等6个已有的基于序列的DNA绑定位点预测系统相结合，以此来预测蛋白质序列中的DNA绑定位点。

尽管在基于序列的蛋白质-DNA绑定位点预测研究中已有部分成果，但该研究任务还远远没有结束。已有的研究成果大多数都没有考虑到蛋白质-DNA绑定位点预测是一个典型的不平衡学习问题，并没有对DNA绑定位点残基与非绑定位点残基进行区别对待，这就会使得最终的预测系统对DNA绑定位点的预测精度偏低，而对非绑定位点的预测精度偏高；且没有充分考虑到不同视角特征对于DNA绑定位点预测的贡献度不尽相同，而是将不同的视角特征一视同仁，从而导致蛋白质-DNA绑定位点预测模型的可解释性较差且预测精度远远没有达到实际应用的要求。因此基于序列的蛋白质-DNA绑定位点预测任务迫切需要进一步研究。

发明内容

为了解决上述基于序列的蛋白质-DNA绑定位点预测问题中由于不同特征视角之间的差异性以及样本不平衡问题没有被充分考虑而导致预测精度距离实际应用差距较大且可解释性较差的缺点，本发明的目的在于提出一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法。

为达成上述目的，本发明所采用的技术方案如下：

一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法，包括以下步骤：

步骤1：特征提取，使用PSI-BLAST与SANN程序分别提取蛋白质序列的进化信息特征和溶剂可及性特征，在此基础上使用滑动窗口技术构建每一个氨基酸残基的特征向量，每个残基有两个对应着两种不同的信息来源的特征向量；

步骤2：特征融合，使用基于线性核的多核学习算法对上述步骤1中的两个特征向量进行评估，得到相应的权重信息，并根据权重进行加权串行组合得到最终的样本特征向量；

步骤3：使用随机下采样技术，对非绑定位点残基进行多次下采样，得到多个非绑定位点样本子集，将每一个非绑定位点样本子集与绑定位点样本集合并后训练一个SVM预测模型，得到多个SVM预测模型；以及

步骤4：使用Boosting提升算法，将步骤3中得到的多个SVM预测模型进行集成，得到最终的蛋白质-DNA绑定位点预测模型，用于预测样本是否为DNA绑定位点；

对于待预测蛋白质序列，采用所述步骤1的方式进行特征提取和步骤2的方式进行特征融合，然后输入步骤4中所最终得到的蛋白质-DNA绑定位点预测模型，预测出蛋白质-DNA绑定位点。

进一步，在上述步骤1中，对于任意一个由n个氨基酸残基组成的蛋白质序列，通过使用PSI-BLAST程序提取得到该蛋白质的进化信息特征，即位置特异性得分矩阵，大小为n×20；再对所述位置特异性得分矩阵使用sigmoid函数，即f(x)＝1/(1+e^-x)，进行逐行标准化，然后使用长度为winsize的滑动窗口得到每个氨基酸残基的进化特征矩阵，将进化特征矩阵拉成长度为20×winsize的特征向量。

进一步，在上述的步骤1中，将一个由n个氨基酸组成的蛋白质序列输入到SANN程序，得到蛋白质序列的溶剂可及性特征，即预测概率矩阵，矩阵大小为n×3；再使用长度为winsize的滑动窗口，得到每个氨基酸残基的溶剂可及性信息矩阵；最后将溶剂可及性信息矩阵拉成长度为3×winsize的特征向量。

由以上本发明的技术方案可知，本发明的有益效果在于：

1.提高模型的预测精度：使用了基于线性核的多核学习算法、随机下采样技术以及Boosting提升算法相结合的策略，使得计算模型可以进一步挖掘更多有效的多视角特征信息与不平衡样本分布信息，提高了预测蛋白质-DNA绑定位点的计算模型的预测精度；

2.提升模型的可解释性：基于线性核的多核学习算法可以衡量不同特征视角对最终蛋白质-DNA绑定预测模型的贡献程度，Boosting提升算法可以衡量每个基于随机下采样得到的SVM预测子模型对最终预测模型的作用大小。这就使得预测模型的工作原理更加清晰，从而提升了模型的可解释性。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为结合基于线性核的多核学习算法、随机下采样技术以及Boosting提升算法的蛋白质-DNA绑定位点预测方法的示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是应为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

图1给出了本发明的预测方法系统结构示意图。结合图1所示，根据本发明的实施例，一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法，包括了以下步骤：

首先，使用PSI-BLAST和SANN程序分别获取训练蛋白质的进化信息特征和溶剂可及性特征；其次，使用滑动窗口技术，从PSSM矩阵与PSA矩阵构建每一个氨基酸残基的特征向量，再使用基于线性核的多核学习算法进行上述两种信息视角的特征对蛋白质-DNA绑定位点预测模型贡献度的权重评估，并根据权重进行加权串行组合得到最终用于预测的特征向量；再次，使用随机下采样技术，对非绑定位点残基进行多次下采样，将每次下采样得到的非绑定位点样本子集与绑定位点样本构成一个训练集，在该训练集上训练一个SVM，得到多个SVM预测子模型；然，使用Boosting提升算法，将上述多个SVM预测子模型进行集成，得到最终的蛋白质-DNA绑定位点预测系统。

下面将结合附图所示，更加具体地描述前述过程。

步骤1：特征提取

对于一个包含n个氨基酸残基的蛋白质序列，通过PSI-BLAST程序可得到进化信息特征，即位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM)，大小为n×20(n行20列)，将蛋白质序列信息转化成矩阵表达形式，如下：

对PSSM中的每个值进行归一化：

f (x) = \frac{1}{1 + e^{- x}} - - - (2)

使用大小为winsize的滑动窗口，来提取每个氨基酸残基的PSSM特征矩阵：

然后，将该氨基酸残基的特征矩阵拉成维数为20×winsize的特征向量：

x_{p s s m}^{i} = {({pssm}_{i - \frac{w i n s i z e - 1}{2}, 1}^{n o r m a l i z e d}, {pssm}_{i - \frac{w i n s i z e - 1}{2}, 2}^{n o r m a l i z e d}, ..., {pssm}_{i + \frac{w i n s i z e - 1}{2}, 20}^{n o r m a l i z e d})}^{T} - - - (4)

对于一个包含n个氨基酸残基的蛋白质序列，通过SANN程序可得到其溶剂可及性特征，即预测概率矩阵(Predicted Solvent Accessibility,PSA)，大小为n×3(n行3列)：

使用上述同样大小的滑动窗口技术，可以得到每个氨基酸残基的PSA特征矩阵：

然后，将该氨基酸残基的PSA特征矩阵拉成维数为3×winsize的特征向量：

y_{p s a}^{i} = {({psa}_{i - \frac{w i n s i z e - 1}{2}, 1}, {psa}_{i - \frac{w i n s i z e - 1}{2}, 2}, ..., {psa}_{i + \frac{w i n s i z e - 1}{2}, 3})}^{T} - - - (7)

步骤2：使用基于线性核的多核学习算法对步骤1中得到的PSSM与PSA两个视角的特征向量对蛋白质-DNA绑定位点预测性能的贡献程度进行有效评估，得到相应的权重值，最后根据对应的权重值对PSSM与PSA两个视角的特征向量进行加权串行组合形成每个样本的最终样本特征向量。

设是每个氨基酸残基最终的特征表达，其中w_pssm≥0与w_psa≥0分别表示PSSM视角特征x_pssm与PSA视角特征y_psa对应的权重值，它们可以理解为PSSM视角特征与PSA视角特征对蛋白质-DNA绑定位点预测模型的贡献程度。为了使用基于线性核的多核学习算法求w_pssm与w_psa值，我们首先需要使用线性核函数(k_l(x,y)＝x^Ty)在训练样本集合上构建PSSM与PSA特征视角对应的核矩阵与由等式(8)可知，在样本最终的特征空间上的线性核矩阵为：

\begin{matrix} L_{i j} = k_{l} (z_{i}, z_{j}) = z_{i}^{T} z_{j} \\ = (w_{p s s m} {(x_{p s s m}^{i})}^{T}, w_{p s a} {(y_{p s a}^{i})}^{T}) (\begin{matrix} w_{p s s m} x_{p s s m}^{j} \\ w_{p s a} y_{p s a}^{j} \end{matrix}) \\ = w_{p s s m}^{2} {(x_{p s s m}^{i})}^{T} x_{p s s m}^{j} + w_{p s a}^{2} {(y_{p s a}^{i})}^{T} y_{p s a}^{j} \\ = w_{p s s m}^{2} {(L_{p s s m})}_{i j} + w_{p s a}^{2} {(L_{p s a})}_{i j} \end{matrix} - - - (8)

根据Cortes C等人研究的基于中心化核对齐的多核学习成果(Cortes C,Mohri M,Rostamizadeh A.Algorithms for learning kernels based on centered alignment[J].The Journal ofMachine Learning Research,2012,13(1):795-828.)，如等式(9)所示，我们将通过最大化最优化函数CA(L,yy^T)来求解PSSM与PSA视角的权重w_pssm与w_psa。

\max_{w_{p s s m}, w_{p s a} &GreaterEqual; 0} C A (L, {yy}^{T}) = \max_{w_{p s s m}, w_{p s a} &GreaterEqual; 0} \frac{< U_{N} {LU}_{N}, {yy}^{T} >_{F}}{{|| U_{N} {LU}_{N} ||}_{F}} - - - (9)

其中y是训练集合中的所有样本的类别向量，是中心化矩阵，N为训练样本集合的样本数目，<·,·>_F与||·||_F分别表示Frobenius内积与Frobenius范数。

令a＝(<U_NL_pssmU_N,yy^T>_F,<U_NL_psaU_N,yy^T>_F)^T，以及M的定义如下：

M = (\begin{matrix} < U_{N} L_{p s s m} U_{N}, U_{N} L_{p s s m} U_{N} >_{F} & < U_{N} L_{p s s m} U_{N}, U_{N} L_{p s a} U_{N} >_{F} \\ < U_{N} L_{p s a} U_{N}, U_{N} L_{p s s m} U_{N} >_{F} & < U_{N} L_{p s a} U_{N}, U_{N} L_{p s a} U_{N} >_{F} \end{matrix}) - - - (10)

则等式(9)可以转换为等式(11)

\max_{w_{p s s m}, w_{p s a} &GreaterEqual; 0} C A (L, {yy}^{T}) = \max_{w_{p s s m}, w_{p s a} &GreaterEqual; 0} \frac{w^{T} a}{\sqrt{w^{T} M w}} = \max_{w_{p s s m}, w_{p s a} &GreaterEqual; 0} \frac{1}{2} w^{T} M w - w^{T} a - - - (11)

式(11)表示的最优化问题是一个典型的凸优化问题，可以使用二次规划来进行求解，然后，使用求得的w_pssm与w_psa权重值加权串行组合成

步骤3：使用随机下采样技术，对非绑定位点的样本进行多次下采样，将每一次下采样得到的非绑定位点子集与绑定位点样本构成一个训练集，在该训练集合上训练一个SVM，最终得到多个SVM预测子模型。通过对非绑定位点样本集合的多次随机下采样，可以在保证样本分布均匀的前提下，尽可能少的丢失非绑定位点信息。

步骤4：使用Boosting提升算法(Zhou Z H.Ensemble methods:foundations andalgorithms[M].CRC Press,2012.)将步骤3中得到的多个SVM预测子模型联合成最终的预测模型，并构建最后的预测模型，用于预测蛋白质序列中每个氨基酸残基是否为DNA绑定位点。

最后，对于待预测蛋白质序列，采用所述步骤1的方式进行特征提取和步骤2的方式进行特征融合，然后输入步骤4中所最终得到的蛋白质-DNA绑定位点预测模型，预测出蛋白质-DNA绑定位点。

综上所述，本发明与现有的预测方法相比，其显著优点在于：本方法可以有效的评价不同视角特征对于最终的蛋白质-DNA绑定位点预测系统的贡献度，并且该方法还拥有解决蛋白质-DNA绑定位点不平衡数据学习的能力。在增强预测模型可解释的同时，还使得最终的预测精度得到提升。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法，其特征在于，包括以下步骤：

步骤5、对于待预测蛋白质序列，采用所述步骤1的方式进行特征提取和步骤2的方式进行特征融合，然后输入步骤4中所最终得到的蛋白质-DNA绑定位点预测模型，预测出蛋白质-DNA绑定位点。

2.根据权利要求1所述的基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法，其特征在于：在上述步骤1中，对于任意一个由n个氨基酸残基组成的蛋白质序列，通过使用PSI-BLAST程序提取得到该蛋白质的进化信息特征，即位置特异性得分矩阵，大小为n×20；再对所述位置特异性得分矩阵使用sigmoid函数，即f(x)＝1/(1+e^-x)，进行逐行标准化，然后使用长度为winsize的滑动窗口得到每个氨基酸残基的进化特征矩阵，将进化特征矩阵拉成长度为20×winsize的特征向量。

3.根据权利要求2所述的基于多核学习与Boosting算法的蛋白质-DNA绑定位点预测方法，其特征在于：在上述的步骤1中，将一个由n个氨基酸组成的蛋白质序列输入到SANN程序，得到蛋白质序列的溶剂可及性特征，即预测概率矩阵，矩阵大小为n×3；再使用长度为winsize的滑动窗口，得到每个氨基酸残基的溶剂可及性信息矩阵；最后将溶剂可及性信息矩阵拉成长度为3×winsize的特征向量。