CN108763865A

CN108763865A - 一种预测dna蛋白质结合位点的集成学习方法

Info

Publication number: CN108763865A
Application number: CN201810489037.3A
Authority: CN
Inventors: 张永清; 郜东瑞; 王婷; 吴锡; 何嘉
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-11-06
Anticipated expiration: 2038-05-21
Also published as: CN108763865B

Abstract

本发明涉及一种预测DNA蛋白质结合位点的集成学习方法，其包括以下步骤：获取DNA结合蛋白质位点的蛋白质序列数据；对DNA结合蛋白质位点的蛋白质序列数据预处理；使用one‑hot编码方式构建输入数据；将提取的特征合并，构建每个蛋白质序列上氨基酸的特征，将其作为输入数据；使用SMOTE算法对正样本数据进行过采样；根据正样本大小将负样本数据分成多份，每份负样本与正样本组合成一个新的数据子集，得到N个数据子集；每个数据子集使用卷积神经网络进行训练；对N个卷积神经网络的结果进行多数投票法集成，从而得到预测结果。本发明解决了不平衡数据情况下的DNA蛋白质结合位点预测问题，提高了预测的准确性。

Description

一种预测DNA蛋白质结合位点的集成学习方法

技术领域

本发明涉及生物信息学领域，尤其涉及一种预测DNA蛋白质结合位点的集成学习方法。

背景技术

目前，DNA蛋白质结合位点检测主要采用染色质免疫沉淀技术(ChromatinImmunoprecipitation，ChIP)和蛋白质结合微阵列(protein binding microarray,PBM)。将ChIP与第二代测序技术相结合的ChIP-Seq技术，能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-Seq的原理是：首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段，并对其进行纯化与文库构建；然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上，从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。PBM技术和基因芯片相似，它在固定相支持物表面高密度排列探针蛋白质或抗体点阵，可特异的捕获样品中的分子，然后用激光扫描系统或CCD(电感耦合器件)获取数组图像，最后用专门的计算机软件进行图像分析结果定量和解释。

然而，尽管Chip-seq和PBM技术检测数据的DNA蛋白质结合位点方法已经非常成熟，但该技术也有不足之处。首先，是富集目的蛋白质结合酶具有特异性，从而导致某些蛋白因找不到合适的特异结合酶而无法进行检测；其次，一次实验只能检测一种蛋白，需要花费许多的时间和人工成本，成本高，无法大规模推广应用；最后，由于实验获取的与目的蛋白结合的DNA片断较长，测序时只能对其两端进行部分测序。因此，寻找一种客观而有效的计算方法对DNA蛋白质结合位点进行精确预测，已经成为了亟待解决的技术问题。

针对上述问题，近年来产生了一系列计算的方法来预测DNA蛋白质结合位点。目前，主流的DNA与蛋白质结合位点预测方法是基于蛋白质序列信息、蛋白质结构信息或两者的结合方法。在基于序列的方法中，最重要的一种是基于机器学习的方法。为了提高预测性能，研究者已进行了很多基于机器学习算法的DNA蛋白质结合位点预测研究，其中包括支持向量机(Support Vector Machine,SVM),人工神经网络(Neural Network,NN)，随机森林(Random Forest,RF)，朴素贝叶斯分类器(Bayes)，最近邻方法(Nearest Neighbor)和集成分类器(Ensemble Models)等。

然而这些方法大部分没有考虑到DNA蛋白质结合位点数据本身的不平衡特性，即结合位点的数据要比非结合位点的数据量少很多，这样在构建预测模型时，就存在比较大的偏差。

发明内容

针对现有技术之不足，本发明提出了一种预测DNA蛋白质结合位点的集成学习方法，其能够在不平衡数据情况下预测DNA蛋白质结合位点。本发明的预测DNA蛋白质结合位点的集成学习方法包括以下步骤：

S1)获取DNA结合蛋白质位点的蛋白质序列数据；

S2)对DNA结合蛋白质位点的蛋白质序列数据预处理，包括使用PSI-BLAST算法提取PSSM的特征；

S3)使用one-hot编码方式构建输入数据；One-hot编码方式是每个蛋白质序列用20维的特征表示，每个氨基酸占一位，表示1，其余各位为0；

S4)将S1和S2提取的特征合并，构建每个蛋白质序列上氨基酸的特征，将其作为输入数据；

S5)使用SMOTE算法对正样本数据进行过采样，过采样的数量为正样本的数量大小，所述正样本数据为DNA与蛋白质有结合的位点数据；

S6)根据正样本大小将负样本数据分成多份，然后每份负样本与正样本组合成一个新的数据子集，得到N个数据子集；

S7)每个数据子集使用卷积神经网络进行训练，所述卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层；

S8)对N个卷积神经网络的结果进行多数投票法集成，从而得到最终的预测结果。

根据一个优选实施方式，在步骤S5中，SMOTE算法是根据正样本中每个样本的K个最近邻数据来生成新的样本。

本发明具有以下有益效果：

本发明解决了不平衡数据情况下的DNA蛋白质结合位点预测问题，相较于现有的只在平衡数据情况下的解决方案更具有实际意义。采用了卷积神经网络分类器，由于卷积网络有着一层层提取物体特征的优势，相比现有的浅层网络更能提取出待识别的蛋白质序列的本质特征，从而提升了模型效果。本发明结合了SMOTE过采样和ENSEMBLE集成学习方法，可以有效缓解数据分布的不平衡，所以预测时在一定程度上提高了准确性，降低了预测正样本的识别错误率。

附图说明

图1示出了本发明中ENSEMBLE-CNN的流程示意图；

图2示出了不同特征在数据集PDNA-543上的性能比较柱状图；

图3示出了ENSEMBLE-CNN和TargetDNA算法在PDNA-543数据集上的性能比较柱状图；

图4示出了ENSEMBLE-CNN和PreDNA算法在PDNA-224数据集上的性能比较柱状图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1示出了本发明中ENSEMBLE集成学习方法(ENSEMBLE-CNN)的流程示意图。在不平衡数据情况下，本发明的预测DNA蛋白质结合位点的集成学习方法大致包括以下步骤：

S1)获取DNA结合蛋白质位点的蛋白质序列数据；

S3)除了提取PSSM特征，同时使用one-hot编码方式构建输入数据。One-hot编码方式是每个蛋白质序列用20维的特征表示，每个氨基酸占一位，表示1，其余各位为0；

S4)将S1和S2提取的特征合并，构建每个蛋白质序列上氨基酸的特征，将其作为输入数据；前述步骤对应于图1中的输入数据(Input data)。

S5)使用SMOTE算法对有DNA与蛋白质有结合的位点数据，即正样本数据进行过采样，过采样的数量为正样本的数量大小；

S6)根据正样本大小将负样本数据分成多份，然后每份负样本与正样本组合成一个新的数据子集，得到N个数据子集；步骤S5、S6对应于图1中的分发数据(Distributedata)。

S7)每个数据子集使用卷积神经网络进行训练，所述卷积神经网络包括卷积层1、池化层1、卷积层2、池化层2和全连接层1；该步骤对应于图1中的训练(Training)。

S8)对N个卷积神经网络的结果进行多数投票法集成，从而得到最终的预测结果。该步骤对应于图1中的预测(Predicting)和多数投票(Majority voting)。

具体地，为了验证算法的有效性，在实验中采用了3个公开的数据集进行测试，并与最近算法结果进行了比较。

本发明使用了3个公开的数据集进行测试，分别是PDNA-543,PDNA-224和PDNA-TEST。

PDNA-543有543个蛋白质序列数据，是2014年10月公布在PDB(蛋白质结构数据库)数据库上。它有9549条DNA结合蛋白质数据(正样本)，134995条非DNA结合蛋白质数据(负样本)。PDNA-224有224条蛋白质序列数据，是2011年公布在PDB数据库上，它有3778条正样本和53570条负样本。PDNA-TEST有41条蛋白质序列数据，它有734条正样本和14021条负样本。

采用了6个评价指标来验证算法的效果，分别是敏感性(Sensitivity)，特异性(Specificity)，准确性(Accuracy)，精确性(Precision)和MCC系数(Mathew’scorrelations coefficient)。另外，针对不平衡数据，我们使用了AUC(the area underthe receiver operating characteristic curve)。

其中，TP,FP,TN,FN分别是真正例(true positive)、假正例(false positive)、真反例(true negative)和假反倒(false negative)。

交叉验证：

使用了十倍交叉验证来验证所提出方法有有效性，即将整个数据子集平均分为十份，选取其中1份作为测试集，剩下的9份作为训练集。随后，将这十份轮流作为测试集，重复上述步骤。这样既可以避免过度学习，又可以避免欠学习状态的发生，从而使得最终的结果具有较强的说服力。

PSSM窗口大小的选择：

在PSSM中，选择合适的窗口大小是非常重要的。所以在PDNA-543数据集上，使用十倍交叉验证，根据MCC的值在7到15之间选择窗口的大小。结果显示窗口大小在15时，取得最好的性能，因此选择PSSM窗口大小为15.

各种不同特征的比较：

对三种不同的特征在数据集PDNA-543上进行了性能比较，结果显示在图2中。图2显示，PSSM2和one-hot coding方法结合的特征得到了76.44％的敏感性，92.85％的特异性，90.87％的准确性，59.79％的精确性、0.625的MCC和0.926的AUC值，这比单独的PSSM2特征高5.04％的敏感性，15.79％的特异性，14.49％的准确性，29.81％的精确性，0.276的MCC值和0.114的AUC值。当把三种特征全部结合时，ENSEMBLE-CNN取得了0.632的MCC和0.933的AUC值，比其它两种特征组合效果都更好。

PDNA-543数据集上的效果测试：

为了验证ENSEMBLE-CNN的性能，我们将PDNA-543数据集与最新的TargetDNA算法进行了比较，结果显示在图3中。从图中可以看到，ENSEMBLE-CNN比TargetNDA的性能在6个指标上面都更好。ENSEMBLE-CNN在敏感性、特异性、准确性、精确性、MCC和AUC值分别是79.48％、92.33％、90.69％、58.70％、0.632和0.993，这分别比TargetNDA(Sensitivity≈Specificity)算法高2.5％、15.18％、13.65％、39.52％、0.33和0.09。同时，ENSEMBLE-CNN比TargetNDA(FPR≈5％)在敏感性、精确性、MCC和AUC值分别提高38.88％、22.23％、0.29和0.09。结果显示，这三种方法都取得了比较好的效果，但ENSEMBLE-CNN取得了更好的效果，这是因为SMOTE过采样提供了更多的正样本信息。

PDNA-224数据集上的效果测试：

为了进一步验证所提出算法的性能，在PDNA-224数据上与最新的PreDNA算法进行了比较，结果显示在图4中。ENSEMBLE-CNN算法在PDNA-224数据上得到了76.8％的敏感性、84.5％的特异性、83.5％的准确性和0.48的AUC值，分别比PreDNA高0.7％、2.3％、1.7％和0.13。

独立测试集上的效果测试：

实验中使用了PDNA-TEST独立测试集与现在的BindN，BindN+，ProteDNA，DP-Bind，MetaDBSite，DNABind和TargetDNA算法进行了比较，结果如表1所示。表中显示，ENSEMBLE-CNN的MCC值为0.274，在这些算法中排名第二。对BindN+算法，ENSEMBLE-CNN的MCC值比它高6.1％。而相比基于meta方法的MetaDBSite方法，ENSEMBLE-CNN算法的敏感性和MCC值分别比它高13.9％和5.3％。

表1

Predictor	Sen(％)	Spe(％)	Acc(％)	Pre(％)	MCC
						BindN*	45.64	80.90	79.15	11.12	0.143
ProteDNA*	4.77	99.84	95.11	60.30	0.160
						BindN+(FPR≈5％)*	24.11	95.11	91.58	20.51	0.178
BindN+(Spe≈85％)*	50.81	85.41	83.69	15.42	0.213
						MetaDBSite*	34.20	93.35	90.41	21.22	0.221
DP‐Bind*	61.72	82.43	81.40	15.53	0.241
						DNABind*	70.16	80.28	79.78	15.70	0.264
TargetDNA(Sen≈Spe)	60.22	85.79	84.52	18.16	0.269
						TargetDNA(FPR≈5％)	45.50	93.27	90.89	26.13	0.300
ENSEMBLE-CNN	48.10	91.20	89.08	21.99	0.274

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种预测DNA蛋白质结合位点的集成学习方法，其特征在于，其包括以下步骤：

S1)获取DNA结合蛋白质位点的蛋白质序列数据；

2.如权利要求1所述的方法，其特征在于，在步骤S5中，SMOTE算法是根据正样本中每个样本的K个最近邻数据来生成新的样本。