CN107463799B

CN107463799B - 交互融合特征表示与选择性集成的dna结合蛋白识别方法

Info

Publication number: CN107463799B
Application number: CN201710731309.1A
Authority: CN
Inventors: 游文杰; 陈芳; 甘胜进
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2020-02-14
Anticipated expiration: 2037-08-23
Also published as: CN107463799A

Abstract

本发明涉及交互融合特征表示与选择性集成的DNA结合蛋白识别方法。相比于现有的方法，本发明的方法具有更加卓越的性能，这也间接表明本发明的交互融合特征表示能够生成携带有强判别信息的特征，同时选择性集成还能进一步提升整体学习器的泛化能力，最终能够保证对DNA结合蛋白的准确预测。

Description

交互融合特征表示与选择性集成的DNA结合蛋白识别方法

技术领域

本发明涉及生物学与信息学交叉领域，特别是涉及一种利用机器学习预测DNA结合蛋白的方法。

背景技术

DNA结合蛋白在各种细胞过程中发挥着极其重要的作用，在理解和解释蛋白质功能中，识别DNA结合蛋白是一个非常重要的任务。从蛋白质序列(一级结构)出发，利用机器学习方法对蛋白质的结构和功能进行预测，是目前生物信息学研究的热点问题，也是一种重要研究手段。

基于机器学习的DNA结合蛋白的预测方法有两大类：基于蛋白质结构的预测；基于蛋白质序列的预测。基于蛋白质结构预测DNA结合蛋白能得到较高的识别率，然而，由于没有足够的蛋白质结构信息，这类方法无法被广泛应用在高通量序列的诠释中。因此，目前的方法更多的是基于氨基酸序列的蛋白质功能预测。大量实验已经表明，蛋白质一级结构(氨基酸残基排列顺序)或多肽相似，其折叠后的空间构象与其功能也很相似，基于这个事实，利用蛋白质序列预测蛋白质功能，包含两个主要过程：1)提取蛋白质序列中包含的生物信息，把蛋白质序列转化为相应的特征向量；2)利用得到的特征向量，使用机器学习中的算法，进行模型训练并对未知序列做功能识别。

在已过的几十年间，基于蛋白质序列的有效特征表示方法，主要包括有：1)基于氨基酸组成的方法，这类方法考虑了相邻的且连续的氨基酸残基间的信息；2)基于伪氨基酸组成的方法，这类方法考虑了非相邻(不连续)氨基酸残基间的信息；以及3)基于蛋白质频率谱的方法，这类方法考虑了蛋白质的进化信息。基于氨基酸组成方法(AAC)，使用序列的统计信息，如常用的k-mers方法，这类方法简单，但所生成特征维数较高(20^k)，存在维灾和过拟合问题。基于伪氨基酸组成方法，由Kuo-chen Chou提出并命名为PseAAC，它考虑了序列的局部顺序和全局顺序，能够较好的表达序列中的顺序与位置信息，该方法能将序列的位置信息映射到所生成特征向量中。基于蛋白质频率谱的方法，使用携带有进化信息的位置特异性得分矩阵(PSSM:Position Specific Scoring Matrix)，该矩阵表达了与其比对序列相关的同源物信息。

研究表明进化信息、物化属性以及序列的结构与位置等信息，对DNA结合蛋白的识别均具有一定的作用。如果仅仅采用氨基酸组成信息或者蛋白质频率谱等单个信息的特征表示方法，所生成识别特征都显得过于单一。目前在相关文献中主流的做法是，考虑不同的属性(如不同的蛋白质物化属性)和信息(如进化信息与结构信息等)，并对这些方法生成的特征向量进行组合，所生成的高维特征向量作为后继分类器的输入。我们把这类方法称为组合式融合特征表示(CFFR:Combined Fusion Feature Representation)，它将氨基酸的物化属性、进化信息的频率谱以及序列信息(相邻和不相邻残基信息)进行组合，能够取得不错的预测性能。然而，这类方法把物化属性与进化信息等均视为彼此独立的特征进行组合，忽略了它们之间还应该存在着交互效应，并且利用这种交互效应能够更进一步提高DNA结合蛋白的预测性能。

发明内容

传统的特征表示把不同方法生成的特征，视为彼此独立的特征进行组合，忽略了这些特征之间还应该存在着交互效应。为了提高对DNA结合蛋白的预测能力，针对蛋白质序列数据，本发明提出交互融合的特征表示与选择性集成分类器：交互融合的特征表示，能够考虑物化属性与进化信息之间的交互效应，和非相邻残基间的位置信息，充分挖掘隐藏在蛋白质序列背后的潜在的生物信息，生成具有强判别能力的特征；选择性集成分类器，是通过对特征表示的参数进行扰动，生成不同的输入特征空间，并使用选择(或修剪)策略得到具有差异性的基分类器，投票集成得到具有强泛化能力的整体分类器。本发明能够显著提高对DNA结合蛋白的预测能力，同时本发明的特征表示也有利于从交互作用的视角去理解DNA结合蛋白在细胞中的功能与作用。

本发明所解决的技术问题是提供交互融合特征表示与选择性集成的DNA结合蛋白识别方法。相比于现有的方法，本发明方法具有更加卓越的性能，这也间接表明本发明的交互融合特征表示能够生成携带有强判别信息的特征，同时选择性集成还能进一步提升整体学习器的泛化能力，最终能够保证对DNA结合蛋白的准确预测。

附图说明

图1.DNA结合蛋白预测模型的框架图

图2.不同特征表示方法的性能指标(ACC,AUC,MCC,Sensitivity andSpecificity)比较(采用30次的10-fold交叉验证法).

具体实施方式

在机器学习实际应用中，通常认为“数据和特征决定了机器学习的上限，而模型和算法能够逼近这个上限”。因此，本发明同时从这两方面着手：1)对多种生物信息进行有效融合，生成具有强判别能力的特征；2)对多个分类器进行选择集成，生成具有强泛化能力的分类器。图1给出我们的预测模型框架，包括交互融合特征表示和选择性集成分类器。左边(虚线框)是交互融合特征表示，右边(虚线框)是选择性集成分类器。

1)交互融合特征表示

特征表示，是根据序列中的数学关系以及生物化学属性等指标，将由字符组成的序列，数值化成一个固定维数的特征向量。针对蛋白质序列数据，本发明先给出一种新的交互融合特征表示模型，该模型能够同时考虑不种物化属性和进化信息自身内部的相关性，以及物化属性与进化信息之间的交互效应。

进化信息的得分矩阵PSSM，即位置特异性得分矩阵(position-specific scoringmatrix)，它是一个行数为L(L为序列长度)列数为20(20类标准氨基酸)的矩阵。蛋白质数据搜索程序PSI-BLAST，能够通过多次迭代寻找最优结果，对于寻找蛋白家族的新成员或者发现远亲物种的相似蛋白非常有效，使用它能够生成一个位置特异得分矩阵PSSM：

元素

表示蛋白质进化过程中蛋白质序列第i个位置(1≤i≤L)的氨基酸残基R_i突变为第j类(1≤j≤L)氨基酸的概率(对数似然得分)，取值越大说明替换的可能性越大，该矩阵表达了序列的进化信息。

物化属性得分矩阵PCSM，本发明给出氨基酸的物化属性得分矩阵(physicochemical scoring matrix,)。在对DNA结合蛋白的识别过程中，我们假设不同氨基酸物化属性对预测结果将产生不同的贡献，因此，在特征表示过程中必须考虑合适的氨基酸物化属性。AAindex是一个包含多个氨基酸物理化学属性的氨基酸指数表，其中AAindex1部分的每一项表示氨基酸的某种物理化学属性量化后的数据，含有20个数值。对于第j种物化属性Q^(j)，任一条蛋白质序列S可表示为其中L是序列长度，(1≤i≤L)是序列中第i个氨基酸残基R_i的第j种物化属性指数。假设考虑有M种物化属性，则有氨基酸物化属性得分矩阵PCSM：

跳空距离为λ的得分矩阵λ-gapSM，考虑到蛋白质序列中不同距离的氨基酸残基之间存在着相互作用，借鉴伪氨基酸组成(非相邻残基)分析思想，给出λ-gap得分矩阵，给定得分矩阵

和参数λ，本发明定义矩阵：

为λ-gap得分矩阵，其中A_λ＝(a_ij)_(L-λ)×L为(0-1)矩阵，

a_ij∈{0，1}，即

其中参数λ(1≤λ≤L-1)表示矩阵A_λ中任一行向量a_i中两个非零元1之间的距离(λ-gap)。特别地，当λ＝0时，A₀退化为单位矩阵I_L，也即0-gap得分矩阵

G₀＝A₀P＝IP＝P

λ-gap得分矩阵间接刻画了序列中不相邻残基之间(跳空距离为λ)的位置信息。

给定长度为L的蛋白质序列，有PSSM矩阵P和PCSM矩阵Q，水平拼接得到矩阵W＝(P，Q)＝(w_ij)_L×(M+20)，由上面λ-gap得分矩阵定义，可得λ-gap得分矩阵

G_λ＝A_λW＝A_λ(P，Q)＝A_λP，A_λQ

由协差矩阵和分块矩阵运算，容易得到，

对上式方阵∑按列拉直运算(matrix vec operator)，保留满足i≤j的元素的元素σ_ij，则所得向量为

v＝vec(Σ)＝(σ_1，1，σ_1，2，σ_2，2，…，σ_1，M+20，σ_2，M+20，…，σ_M+20，M+20)。

显然该向量的维数仅与M有关，而与L(序列长度)和λ(跳空距离)无关。

本发明的特征表示模型中，分别利用了物化属性Q和进化信息P各自本身所蕴含的相关性信息

和

同时，还考虑了物化属性和进化信息之间的交互效应项

其中

刻画了距离为λ的残基间位置信息。因此，我们把这种特征表示称为(三重信息)交互融合特征表示λ-gapIFFR。详细算法如下，算法1的输入参数λ，也即序列残基之间的跳空距离。

当λ＝0时，特征表示算法λ-gapIFFR仅考虑了序列的不同物化属性和进化信息，算法1退化为二信息交互式融合IFFR；特别地，当λ＝0时，且算法1的第4行W＝P时，算法1退化为基于进化信息的特征表示，记为CovPSSM；当λ＝0时，且算法1的第4行W＝Q时，算法1退化为基于物化属性的特征表示，记为CovPCSM；传统的做法是，将这两种特征表示CovPSSM和CovPCSM所生成的特征向量进行组合式串联，记为CFFR。

2)选择性集成分类器

给定蛋白质序列集，随机划分训练集S_trn，验证集S_val和测试集S_tst。假设为对应于S_trn的训练集，其中任一训练样本

的输入变量

是由算法1得到的跳空距离为λ的p维特征向量，输出变量为y_i∈Y＝{-1，+1}。同理可得验证集

和测试集

在

上训练基分类器C_λ，构成集合T＝{C₁，C₂，…，C_L-1}，

为T的任一子集，计算子集

对应的集成基分类器在相应的验证集

上的泛化误差选取泛化误差最小的子集

理论上，最优基分类器子集T^*可通过穷举法得到。然而，当L较大时，穷举法的计算量太大。一种简单直观的选择策略是：对基分类器C_i按性能指标M进行排序，选取前k(奇数)个基分类器构成的子集T^*做为对集成分类器T的修剪，并对子集采用投票(Max-Wins Voting,MWV)策略进行表决。以下给出详细的算法实现：算法2选择性集成GapIFFR-SE，其实质是对参数λ进行扰动，生成不同的输入特征空间，并通过选择(或修剪)得到具有差异性的基分类器子集，达到提升整体分类器的性能。

为了验证本发明的有益效果，选取4个DNA结合蛋白序列数据进行分析，它们的样本容量相对较充足(≥300)，同时它们又都是序列相似性小于40％的数据集，这些能保证实验结果的可信性。表1给出数据的汇总信息与数据来源¹。

表1 用于实验验证的基准数据集(蛋白质序列数据集)

系统评估本发明的预测性能，分别采用Jackknife校验法和k-fold交叉校验法(k-foldCV)对本发明进行比较和评估。其中k-foldCV能够有效降低由于数据不充分而造成的过学习和欠学习状态的发生，在实践中，10-foldCV被认为是标准方法；Jackknife校验法被认为是较客观的统计校验方法，它能够避免由于训练和测试数据的随机划分而造成的随机性，保证实验结果的可复制性。

对算法性能的评估指标有：预测准确率(ACC:Accuracy)、敏感性(SE：Sensitivity)、特异性(SP：Specificity)和综合评价预测结果的相关性系数Mathews相关系数(MCC：Mathews Correlation Coefficient)，详细定义如下：

其中，TP(真阳性)表示DNA结合蛋白被预测为DNA结合蛋白的个数，TN(真阴性)表示非DNA结合蛋白被预测为非DNA结合蛋白的个数，FP(假阳性)表示非DNA结合蛋白被错误预测为DNA结合蛋白的个数，FN(假阴性)表示DNA结合蛋白被错误预测为非DNA结合蛋白的个数。

ACC表示预测结果中真阳性与真阴性之和在总测试实例中的百分比；SE表示真阳性在所有预测为阳性测试数据中的百分比；SP表示真阴性在所有预测为阴性测试数据中的百分比。对于完美的预测系统，这三指标都应该达到100％。然而，对于非平衡数据集，若SE增加时，则SP必然下降，反之亦然，这些指标不能很好的评估预测结果，相比较MCC是个更平衡的评估标准，其取值范围在[-1,+1]之间，值为1表示预测结果与真实类别完全相关，值为0表示是完全随机的预测，值为-1表示完全相反的相关性。另外，ROC曲线图中曲线下面积(area under the curve,AUC)可以作为更加客观的分类性能评估标准。ROC曲线图是一个单位平方，两坐标轴(真阳性率和假阳性率)的数值从0到1，AUC最大值为1，对应于完美分类器。

必须指出的是，以下用于比较的实验结果均是使用基分类器：线性核SVM(参数默认)，由于我们更多专注于本发明的特征表示方法，所以未对分类器做任何的优化。事实上，可以通过调整分类器与参数，以及选用更为有效的物化属性，可以得到更高的预测结果。以下分别评估本发明的特征表示算法和选择性集成方法。

首先，在4个独立数据集上利用Jackknife验证，比较本发明的特征表示算法IFFR和CovPCSM，CovPSSM，CFFR三算法的性能，其中CovPCSM方法只是单一的考虑物化属性自身信息，生成的特征维数(d＝21)较少，识别效果一般；CovPSSM方法只是单一的考虑进化信息，生成的特征维数(d＝210)相对较多，识别效果较好；而CFFR方法是对它们二者进行简单串联组合，所生成特征向量同时考虑物化信息和进化信息，识别效果略优于CovPSSM的结果。本发明的IFFR方法不仅考虑了物化属性内部和进化信息内部的相关性，并且更进一步考虑了物化属性和进化信息之间的交互效应项，取得最好的识别性能。详细结果如表2。

表2 在4个独立数据集上不同特征表示方法的性能比较(采用Jackknife校验法)

^aCFFR＝Combined Fusion Feature Reresentation；

^bIFFR＝Interactive Fusion Feature Representation.

注意：表格中加粗的数值表示最好的识别结果.

其次，在4个独立数据集上，考查本发明的特征表示算法IFFR(λ＝0)与三个经典的特征表示算法(PsePSSM，PseAAC和AAC)的性能比较，为使比较的结果更加客观可信，实验使用30次的10-fold CV校验结果进行分析。

从图2知，在数据集Alternate Dataset,PDB1075 Dataset和Independent2Dataset中，基于IFFR特征表示算法具有卓越的性能，其平均性能均优于其它算法(PsePSSM,PseAAC和AAC)。在全部数据集中，IFFR特征表示通常有较小的标准误差，这在某种程度上说明IFFR特征表示对训练样本集的随机构成不敏感，鲁棒性更好。在数据集Independent1 Dataset中，基于PsePSSM特征表示算法也有很好的表现，明显优于PseAAC和AAC的结果。这是因为IFFR与PsePSSM都使用了PSSM进化信息，也就是PSSM所携带的进化信息比序列自身所包含的信息更为丰富也更加重要，因此，考虑进化信息能够达到提升预测性能的目的。总之，相比较于经典算法(PsePSSM,PseAAC和AAC)，在4个独立数据集中本发明的IFFR特征表示是有效的。

最后，在基准数据集PDB1075上，对本发明的选择性集成算法GapIFFR-SE和其它预测方法进行比较，其中用于比较的8个卓越方法包括有：iDNA-Prot|dis,PseDNA-Pro,iDNA-Prot,DNA-Prot,DNAbinder,iDNAPri-PseAAC,Kmer1+AAC和Local-DPP。基于Jackknife校验的比较结果如表3所示，容易看出，在众多的比较方法中，本发明的选择性集成算法GapIFFR-SE具有最好的预测性能，也即识别率达到最大值79.91％，MCC指标取得最大值0.61，SE指标也取得最大值87.43。因此，相比较于现有的最好方法，本发明方法具有更加卓越的性能，这也间接表明本发明的交互融合特征表示能够生成携带有强判别信息的特征，同时选择性集成还能进一步提升整体学习器的泛化能力，最终能够保证对DNA结合蛋白的准确预测。

表3：在数据集PDB1075上本发明识别方法和其它预测方法的性能比较(采用Jackknife校验法).

以上为本发明的优选实例，但本发明的实施并不限于上述实例。本领域人员阅读了上述内容后，任何对于本发明的修改和替代，都可被认为处于本发明的权利要求限定范围内。

Claims

1.交互融合特征表示与选择性集成的DNA结合蛋白识别方法，其特征包括如下步骤：交互融合的特征表示与选择性集成分类器，其中所述的交互融合的特征表示是利用物化属性与进化信息之间的交互效应，和非相邻残基间的位置信息，充分挖掘隐藏在蛋白质序列背后的潜在的生物信息，生成具有强判别能力的特征；所述的选择性集成分类器是通过对特征表示的参数进行扰动，生成不同的输入特征空间，并使用选择或修剪策略得到具有差异性的基分类器，投票集成得到具有强泛化能力的整体分类器。

2.如权利要求1所述的方法，其特征在于，所述的交互融合的特征表示是根据序列中的数学关系以及生物化学属性，将由字符组成的序列，数值化成一个固定维数的特征向量，针对蛋白质序列数据，采用交互融合特征表示模型，从而能够同时考虑不种物化属性和进化信息自身内部的相关性，以及物化属性与进化信息之间的交互效应，其中所述的进化信息的得分矩阵(P)是一个行数为序列长度(L)，列数为20的得分矩阵：