CN109559781A

CN109559781A - 一种预测dna-蛋白质结合的双向lstm和cnn模型

Info

Publication number: CN109559781A
Application number: CN201811244350.7A
Authority: CN
Inventors: 张永清; 曾圆麟; 卢荣钊; 何嘉; 周激流
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-04-02

Abstract

本发明提出了一种预测DNA‑蛋白质结合的双向LSTM和CNN模型，其中包括输入层、BLSTM层、卷积层、最大池化层、全连接层和输出层。输入层使用独热编码将每个输入序列表示为4行二进制矩阵；在BLSTM层中，前一层中的每个LSTM模型将从输入序列中接收DNA上感兴趣的信息，对从过去历史信息传递到隐藏状态的贡献进行编码解释；然后将其传播到下一个BLSTM模块中；卷积层中每个卷积核扫描输入的矩阵用于模体发现，不同强度的信息关联潜在的序列模式；最大池化层用于最大化每个卷积核的输出信号使其成一个完整的序列；输出层执行非线性转换以确定DNA‑蛋白质结合的特征信息。

Description

一种预测DNA-蛋白质结合的双向LSTM和CNN模型

技术领域

本发明涉及深度学习和生物信息技术领域，尤其涉及一种预测DNA-蛋白质结合的双向LSTM和CNN模型。

背景技术

准确地建立转录因子(Transcription factors，TF)序列的特定模型是理解基因组功能和进化的基本问题。特别是，转录因子的结合特性对下游基因表达将产生决定性的作用。随着高通量测序技术的发展，ENCODE计划提供了98个细胞全基因组范围的187个TF的结合特异性。根据转录因子结合位点，可以定义一个序列的二分类问题，即根据TF是否结合，将其分别划分为正样本和负样本。通过建立序列的二分类模型，可以预测新的样本的绑定结合位点。

近年来，与其他机器学习方法相比，深度学习技术具有更高的鉴别能力，并已广泛应用于生物信息学，如蛋白质结构预测，基因表达调控，蛋白质分类。卷积神经网络(CNN)是一个众所周知的深度学习框架。CNN的组件包括卷积，池化和全连接层。对于分类器或回归任务，通常使用softmax回归，因为它可以产生与输出相对应的良好形成的概率分布。卷积神经网络(CNN)成功预测了TF结合位点。通过编码训练的空间不变性，CNN可以很好地推广。图形处理单元(GPU)上的快速卷积允许CNN在大规模数据集上进行训练。

然而，现有技术方案存在以下不足：神经网络的框架将极大地影响模型的系统性能，同时在捕获探针序列的位置和动态方面表现更差，以便从DNA序列预测TF结合位点。因此，现有计算方法在预测DNA-蛋白质结合的准确性方面还有待提升。

发明内容

针对现有技术之不足，研究的重点是发现转录因子结合位点(TFBS)，TFBS的任务可视为二元序列分类问题。该问题可以公式化为：作为输入，通过表示训练集，其中X(i)是矩阵，尺寸为4×N，其中N是DNA序列的长度(在实验中是101个碱基对)。序列中的每个碱基对表示为四个独热编码之一[1,0,0,0]，[0,1,0,0]，[0,0,1,0]和[0,0,0,1]。该矩阵称为位置频率矩阵(PFM)，其具有对应于遗传字母表的每个通道的四行，即{A，T，C，G}。标签Y(i)可以是标量或载体，取决于所研究的转录因子结合位点的数量。尽管如此，维度的数量等于分类任务，并且Y(i)的每个元素都是标准空间{0,1}中的二进制标签。目标是准确地预测训练数据中的标记，即准确地预测每个转录因子是否与给定序列结合。

本发明提出将BLSTM网络和CNN网络结合起来形成BLSTM+CNN模型，又称为DeepSite，如图1所示。该框架可以通过BLSTM层有效地表征基因序列中可能高度复杂的顺序，并生成通过CNN和最大池层找到可能的序列模式。利用这种神经网络，可以通过从BLSTM和CNN的每个中间隐藏值中获取信息来捕获基因序列的长短时依赖性信息。该模型包括输入层、BLSTM层、卷积层、最大池化层、全连接层和输出层，其结构如下：

第一层为输入层，其使用独热编码将每个输入序列表示为4行二进制矩阵，每个序列的长度为101个碱基对；

第二层为BLSTM层，其中前一层中的每个LSTM模型将从输入序列中接收DNA上感兴趣的信息，对从过去历史信息传递到隐藏状态的贡献进行编码解释；然后，该解释信息将传播到下一个BLSTM模块中，包括其前一个和下一个LSTM块；一直到最后一个核苷酸，LSTM模块将做出最终确定；

第三层为卷积层，其由不同卷积核组成，其中具有线性整流函数ReLU作为激活函数，每个卷积核扫描输入的矩阵用于模体发现，不同强度的信息关联潜在的序列模式；

第四层为最大池化层，通过减小输入的尺寸来提高性能，减小过拟合，为后续层保留重要信息。

第五层为全连接层，用于最大化每个卷积核的输出信号使其成一个完整的序列，使用ReLU作为激活单元。

最后一层为输出层，其使用sigmoid激活执行非线性转换，并生成0到1之间的值，以表示每个探针的DNA-蛋白质结合的概率，从而确定DNA-蛋白质结合的特征信息。优选地，通过BLSTM层有效地表征基因序列中的顺序，并生成通过CNN和最大池层概括序列模式的过滤器。

根据一个优选实施方式，BLSTM+CNN模型对应的深度学习网络的训练步骤具体包括：

步骤一，从ENCODE等公共数据库中获取DNA-蛋白质结合的实验数据；

步骤二，利用预先设置有初始参数的深度学习网络对所述DNA-蛋白质结合样本进行识别分类；根据所述深度学习网络输出结果与所述DNA-蛋白质结合的特征信息之间的差异逐层反传至所述深度学习网络，训练所述深度学习网络的参数；

步骤三，所述利用预先设置有初始参数的深度学习网络对所述DNA-蛋白质结合进行识别，其具体为：利用预先设置有初始参数的BLSTM算法，学习基因序列之间的前后依赖关系信息，通过CNN网络的卷积层，获取DNA-蛋白质结合位点的序列特征信息，最大池化层提取序列特征中的重要取得更好的预测效果，再通过全连接层的操作，得到所述DNA-蛋白质结合识别的概率；根据所述深度学习网络输出结果与DNA-蛋白质结合信息之间的差异逐层反传至所述深度学习网络，训练深度学习网络的参数。

本发明具有以下有益效果：

本发明提供了一种用于预测DNA-蛋白质结合的BLSTM+CNN模型，又称为DeepSite，其可以通过BLSTM层有效地表征基因序列中可能高度复杂的顺序，并通过CNN和最大池层找到可能的序列模式。通过使用BLSTM算法，可以很好地学习基因序列之间的依赖关系信息。通过将BLSTM网络和CNN网络结合，可以很好地获取TF结合信息，取得更好的预测效果。本发明利用深度学习算法代替传统的机器学习方法，达到识别DNA-蛋白质结合有更高准确性的目的。

附图说明

图1是本发明的DeepSite模型的流程图；

图2示出了不同细胞数下BLSTM和DeepSite的AUC性能变化曲线；

图3示出了CNN和DeepSite的AUC与卷积核数的性能变化曲线；

图4示出了CNN、BLSTM和DeepSite在同一数据集上的ROC曲线；

图5示出了CNN和DeepSite在不同数据量下AUC的性能变化曲线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明使用双向LSTM结构来处理DNA序列中的顺序和逆序依赖信息。网络结构和提出的算法基于Keras库实现。所有这些都在图形处理单元(GPU)上进行，以加快训练时间。

如图1所示，BLSTM网络和CNN网络结合起来形成BLSTM+CNN模型，即DeepSite，该框架可以通过BLSTM层有效地表征基因序列中可能高度复杂的顺序，并生成通过CNN和最大池层概括序列模式的过滤器。利用这种神经网络，可以通过从BLSTM和CNN的每个中间隐藏值中获取信息来捕获基因序列的长短依赖性信息。

最后一层为输出层，其使用sigmoid激活执行非线性转换，并生成0到1之间的值，以表示每个探针的DNA-蛋白质结合的概率。DeepSite通过使用标准反向传播算法和小批量梯度下降与Adagrad变体进行训练。Dropout和早期停止技术用于正则化和模型选择。

下面通过实验对本发明与不同方法在不同数据集上进行性能比较，在实验中，整个训练数据被分批处理。每批数量的大小由参数批量大小(batch size)决定。批量大小指定为64。参数权重和偏置的初始化值设置为Keras中的默认值。每个模型都通过50次迭代的训练进行优化。所有实验均由Python库Keras进行，在具有24Xeon处理器和256GB内存以及1个Nvidia Tesla K40C GPU的机器上运行。

从ENCODE下载690个ChIP-seq实验数据，阳性组由每个ChIP-seq峰的中心101碱基对区域组成，阴性组由具有匹配二核苷酸组成的shuffled阳性序列组成。进一步地，基于690ChIP-seq实验数据生成数据集。将所有训练数据组合成整个数据集，训练集中的DNA序列数为2,725,808，测试组中的DNA序列数为255,700。为了减少DeepSite的运行时间，首先使用10％的训练集和测试集来评估性能。最后，使用所有数据集都用于评估DeepSite的性能。

实验中使用了五种评估测量，即Sensitivity(Sen)，Specificity(Spe)，Accuracy(Acc)，Precision(Pre)和Mathew's Correlation Coefient(MCC)用于评估预测能力。它们通过以下等式计算：

其中TP是真阳性数，TN是真阴性数，FP是假阳性数，FN是假阴性数，P是阳性数，N是阴性数。然而，这些五个测量值取决于阈值。因此，选择用于报告这些评估测量的方法对于在不同预测器之间进行事务比较是至关重要的。在该研究中，接收器操作特性(ROC)曲线下面积(AUC)是阈值无关的并且与总体预测性能成正比增加，用于评估预测性能。

通过逐渐将LSTM单元数量取值从32,64,128变为256来评估训练数据集上的Sen，Spe，Acc，Pre，MCC和AUC值。图2绘制了不同细胞数下AUC的性能变化曲线。根据图2可知，AUC的值随着细胞数量的增加而增加，并且本发明所提出的BLSTM+CNN模型的性能比BLSTM更好。

表1通过指定不同的单元格数值显示Sen，Spe，Acc，Pre和MCC的值。实验结果表明，本发明的算法在32,64,128和256个细胞数上分别达到MCC的0.686,0.691,0.706和0.713，优于BLSTM，MCC为32的差距为0.089,0.044,0.039,0.015，64,128和256个单元格。这表明BLSTM和CNN的结合在少数细胞数量中运行良好，这将有助于缩短训练时间。

表1.DeepSite和BLSTM在不同细胞数中的性能比较

接下来，讨论如何在CNN中选择卷积内核的数量。通过逐渐将卷积核的数量从32,64改为128来评估训练数据集上的Sen，Spe，Acc，Pre，MCC和AUC的值。

图3绘制了不同卷积核数下AUC的变化曲线。根据图3可知，AUC的值随着卷积核的数量而增加，并且DeepSite模型的性能总是优于CNN。表2显示了DeepSite与CNN在不同数量的卷积核数量下的Sen，Spe，Acc，Pre和MCC的测量结果。结果表明，本发明的方法分别在32,64和128个卷积核上达到了0.699,0.700和0.706，在32,64和128个卷积核上，MCC的效果优于CNN，其中MCC为0.119,0.081和0.073。它表明BLSTM和CNN的组合在不同数量的卷积核中更稳定，甚至在少量卷积核中也有更好的结果。

表2.DeepSite和CNN在不同卷积数量上的性能比较

图4显示了同一数据集上三种深度学习方法的ROC曲线。通过图1，我们发现BLSTM+CNN的AUC为0.932，与BLSTM和CNN相比，分别表现出约0.005和0.035的改善。BLSTM+CNN，即DeepSite获得了有效预测DNA-蛋白结合的最佳ROC曲线。

为了进一步评估DeepSite的性能，我们使用DeepSite和CNN对数据大小分别为10％，30％，50％和100％的四个不同数据集进行了实验。图5显示了不同数据集基数下AUC的性能变化曲线。根据图5可知，AUC的值随着数据的基数而增加，并且在大多数情况下，DeepSite的性能优于CNN。表3示出了在不同数据量下的Sen，Spe，Acc，Pre和MCC的值。

表3.DeepSite和CNN在不同数据集规模上的性能比较

结果表明，BLSTM+CNN在MCC的10％，30％，50％和100％的数据大小分别达到0.713,0.765,0.770和0.783，表现优于CNN，0.008,0.116,0.131，0.138对数据大小的10％，30％，50％和100％。其说明了：100％的数据集大小具有更多的训练数据，并且DeepSite可以充分利用大量的训练实例来提高其性能。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种预测DNA-蛋白质结合的双向LSTM和CNN模型，其特征在于，其包括输入层、BLSTM层、卷积层、最大池化层、全连接层和输出层，其中，

最后一层为输出层，其使用sigmoid激活执行非线性转换，并生成0到1之间的值，以表示每个探针的DNA-蛋白质结合的概率。

2.如权利要求1所述的模型，其特征在于，所述模型对应的深度学习网络的训练步骤具体包括：