CN112382338A

CN112382338A - 基于自注意力残差网络的dna-蛋白质结合位点预测方法

Info

Publication number: CN112382338A
Application number: CN202011280189.6A
Authority: CN
Inventors: 於东军; 申龙晨
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-19
Anticipated expiration: 2040-11-16
Also published as: CN112382338B

Abstract

本发明公开了一种基于自注意力残差网络的DNA‑蛋白质结合位点预测方法，包括：对ChIP‑seq数据集进行同源性去除，对DNA序列进行编码，将DNA序列中的碱基转换为特征向量；对数据集进行随机下采样构建全局训练数据集Init‑Dataset；构建基于自注意力机制与残差结构的深度学习网络；将全局训练数据集输入基于自注意力机制与残差结构的深度学习网络对其进行训练；对深度学习网络进行迁移训练；将待预测DNA序列输入迁移训练好的深度学习网络，输出对应的DNA序列结合蛋白质的概率。本发明利用自注意力机制捕捉到序列的空间特征，残差网络提取了序列的高阶特征，二者结合使得网络的预测精度得到提升。

Description

基于自注意力残差网络的DNA-蛋白质结合位点预测方法

技术领域

本发明属于生物信息学预测DNA-蛋白质结合位点领域，具体为一种基于自注意力残差网络的DNA-蛋白质结合位点预测方法。

背景技术

转录因子是与DNA序列结合并调控基因表达的蛋白质，在调控基因组功能中发挥重要作用，对药物设计也具有重要意义。转录因子结合位点是一个与转录因子结合的DNA片段，通常在5-20bp的范围内。转录因子通常同时调控多个基因，不同基因上的结合位点在一定程度上是保守的，但不完全相同。因此，准确预测DNA-蛋白结合对于理解转录因子的生理作用、描述基因组的特定功能特征以及阐明在复杂生物体中高度特异性的序列表达程序是如何安排的至关重要。

然而，通过生物实验的方法来确定DNA-蛋白质结合位点是需要耗费大量的时间和资金的，并且效率不高。而且，随着高通量测序技术的发展和人类结构基因组的不断推进，已经积累了大量未进行结合位点标定的DNA序列。因此应用生物信息学的相关知识，研发出能够直接从DNA序列出发进行DNA-蛋白质结合位点快速且准确预测的智能预测方法有着迫切需求，且对药物设计，基因表达的理解有着重要的意义。

目前，针对基于DNA序列信息的DNA-蛋白质结合位点的预测模型还很欠缺。通过查阅相关文献，可以发现，目前专门设计来进行基于DNA序列信息的DNA-蛋白质结合位点预测的计算模型有：kmerHMM、gkm-SVM、DeepBind、KEGRU、DeepSite、DeepTF、CNN-Zeng以及Expectation-Luo等。其中kmerHMM(Wong K C,Chan T M,Peng C,et al.DNAmotifelucidation using belief propagation[J].Nucleic acids research,2013,41(16):e153-e153.)与gkm-SVM(Ghandi M,Lee D,Mohammad-Noori M,et al.Enhancedregulatory sequence prediction using gapped k-mer features[J].PLoSComputBiol,2014,10(7):e1003711.)是两个较早期的基于序列信息的DNA-蛋白质结合位点预测模型。DeepBind(Alipanahi B,Delong A,Weirauch M T,et al.Predicting the sequencespecificities of DNA-and RNA-binding proteins by deep learning[J].Naturebiotechnology,2015,33(8):831-838.)是第一个基于深度学习技术的DNA-和RNA-蛋白质结合位点预测模型。KEGRU(Shen Z,Bao W,Huang D S.Recurrent neural network forpredicting transcription factor binding sites[J].Scientific reports,2018,8(1):1-10.)是基于RNN网络的DNA-蛋白质结合位点预测模型。DeepSite(Jiménez J,DoerrS,Martínez-Rosell G,et al.DeepSite:protein-binding site predictor using 3D-convolutional neural networks[J].Bioinformatics,2017,33(19):3036-3042.)与DeepTF(Bao X R,ZhuYH,Yu D J.DeepTF:Accurate Prediction ofTranscription FactorBinding Sites by Combining Multi-scale Convolution and Long Short-Term MemoryNeural Network[C]//International Conference on Intelligent Science and BigData Engineering.Springer,Cham,2019:126-138.)是基于CNN和RNN网络的DNA-蛋白质结合位点预测模型、CNN-Zeng(Zeng H,Edwards M D,Liu G,et al.Convolutional neuralnetwork architectures for predicting DNA–protein binding[J].Bioinformatics,2016,32(12):i121-i127.)是基于浅层卷积神经网络的DNA-蛋白质结合位点预测模型，Expectation-Luo(Luo X,Tu X,Ding Y,et al.Expectation pooling:an effective andinterpretable pooling method for predicting DNA–protein binding[J].Bioinformatics,2020,36(5):1405-1412.)提出了基于EM算法的全局池化方法实现的DNA-蛋白质结合位点预测模型。

然而，上述大多数方法使用浅层网络来拟合序列数据，这是因为一些数据集不足以支持深度网络的训练，容易导致模型过拟合。其次，这些算法由于自身的局限性，不能充分利用其他大规模实验数据来进一步提高模型性能。且目前的预测精度距离实际应用还有较大差距，迫切需要进一步提高。

发明内容

本发明提出了一种一种基于自注意力残差网络的DNA-蛋白质结合位点预测方法。

实现本发明的技术解决方案为：一种基于自注意力残差网络的DNA-蛋白质结合位点预测方法，具体步骤为：

步骤1：对ChIP-seq数据集进行同源性去除，对ChIP-seq数据集中DNA序列进行编码，将DNA序列中的碱基转换为特征向量；

步骤2：对步骤1处理后的数据集进行随机下采样构建全局训练数据集Init-Dataset；

步骤3：构建基于自注意力机制与残差结构的深度学习网络；

步骤4：将将全局训练数据集输入基于自注意力机制与残差结构的深度学习网络对其进行训练；

步骤5：对步骤4全局训练得到的深度学习网络进行迁移训练；

步骤6：将待预测DNA序列输入迁移训练好得深度学习网络，通过网络的前向计算，输出对应的DNA序列结合蛋白质的概率。

优选地，所述基于自注意力机制与残差结构的深度学习网络包括依次连接的64个卷积核、ELU激活函数、最大池化层、间隔堆叠的若干个残差模块与自注意力模块、平均池化层、全连接层以及sigmoid函数。

优选地，所述残差模块的定义如下：

其中，x_l和x_l+1分别表示第l层残差块的输入和输出；

是第l层残差块的一组权重，

表示残差函数。

优选地，所述自注意力模块定义如下:

式中，

θ是可学习的权值，W_u是可学习的

的权重矩阵，C是x的通道数，

是通过1×1卷积降维后的通道数，x表示前面一个隐藏层，

表示批归一化层和激活函数，y是注意力模块的中间输出。

优选地，注意力模块的中间输出向量y中的某一个位置i的值用y_i表示，具体的计算过程为：

式中，i和j分别为输入信号输出位置所有可能的索引值，函数F表示i和所有j的注意力，函数h表示输入特征图j位置序列变换，N表示x的位置数量。

优选地，i和所有j的注意力的具体计算公式为：

F(x_i,xj₎＝ELU(p(x_i)^Tq(x_j))

式中，

表示批归一化层与激活函数，W_p、W_q为权值矩阵。

本发明与现有技术相比，其显著优点为：本发明设计了一种自注意机制来有效地从DNA序列中学习远距离依赖关系，弥补了残差模块叠加造成的全局信息损失；两者结合提高了DNA-蛋白质结合位点的计算模型的预测精度；

本发明利用自注意力机制捕捉到序列的空间特征，残差网络提取了序列的高阶特征，二者结合使得网络的预测精度得到提升，迁移学习不仅提高了DNA-蛋白质结合位点的计算模型的预测精度，同时也加快了网络的收敛速。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1为基于自注意力残差网络的DNA-蛋白质结合位点预测方法示意图。

图2为全局数据集处理过程示意图。

具体实施方式

如图1所示，一种基于自注意力残差网络的DNA-蛋白质结合位点预测方法，包括以下步骤：

首先，使用CD-HIT-EST-2D程序对690个染色质免疫沉淀-测序(ChIP-sequencing，ChIP-seq)技术产生的转录因子绑定位点数据集(ChIP-seq数据集)进行同源性去除，然后通过one-hot编码方式对DNA序列进行编码，将DNA序列中的碱基转换为特征向量的形式表示；其次，构建全局训练数据集(Init-Dataset)，为了避免过度拟合和提高模型的泛化能力，该方法采用随机下采样策略构建全局训练数据集Init-Dataset。最后将全局训练数据集随机划分为训练集、验证集和测试集；再次，构建基于自注意力机制与残差结构的深度学习网络框架，网络采用Adam优化器进行迭代学习；然后，全局训练，将全局训练集输入到基于自注意力机制与残差结构的深度学习网络框架中，通过网络中堆叠的残差模块与自注意力模块对数据进行学习，最后通过Adam优化器进行损失函数的计算，更新网络权重。最后，再通过迁移学习的训练方式，在上述训练出的网络权重的基础上，分别在690个ChIP-seq数据集上对网络权重进行微调，生成对应的学习模型。预测过程，输入101bp的DNA序列到网络模型中，通过网络的前向计算，输出对应的DNA序列结合蛋白质的概率。

下面将结合附图所示，更加具体地描述前述过程。

步骤1：数据预处理，使用CD-HIT-EST-2D程序对690个ChIP-seq数据集进行同源性去除，然后通过one-hot编码方式对DNA序列进行编码，将DNA序列中的碱基转换为L×4的特征向量，其中L是DNA序列的长度，在本实施例中L为101，4为碱基对的数量(A,C,G,T)。在one-hot编码中，A表示为[1,0,0,0]，C表示为[0,1,0,0]，G表示为[0,0,1,0]，T表示为[0,0,0,1]。

步骤2：构建全局训练数据集(Init-Dataset)，为了避免过度拟合和提高模型的泛化能力，本发明采用随机下采样策略构建全局训练数据集Init-Dataset；对于全局训练数据集Init-Dataset，采用随机采样来保证正样本和负样本的平衡。最后将全局训练数据集Init-Dataset随机划分为训练集(80％的数据)、验证集(10％的数据)和测试集(10％的数据)，处理流程如图2所示。

步骤3：构建基于自注意力机制与残差结构的深度学习网络框架，网络采用Adam优化器进行迭代学习。

所述深度学习网络的输入为1×L×4的从步骤1中得到的特征向量形式的DNA序列，通过64个1×7的卷积核进行卷积操作，然后通过ELU激活函数，增加神经网络的非线性，接着通过一个1×3的最大池化层，压缩数据和参数量，减小过拟合。接着将特征输入到间隔堆叠的多个残差模块与自注意力模块中，然后通过平均池化层以及全连接层，最后将特征输入到sigmoid函数中，输出一个预测概率。

其中，残差模块的结构如图1所示，残差单元通过跳层连接的形式实现，将单元的输入与单元的输出加在一起，包含了一个恒等映射，有效解决了网络退化问题。通过增加神经网络的层次，可以提高模型的表达能力。然而，传统的深层前馈网络由于梯度更新不稳定，训练困难。本发明的残差模块通过快捷连接为这个问题提供了一种新的解决方案。本发明中残差模块的定义如下：

其中x_l和x_l+1分别表示第l层残差块的输入和输出；

是第l层残差块的一组权重，

表示残差函数。

另外，自注意力模块的结构如图1所示，本发明对深度神经网络中的自注意力模块定义如下:

其中，

W_u是可学习的

的权重矩阵(C是x的通道数，

是通过1×1卷积降维后的通道数，取

)，

表示实数集，即权重矩阵的值为实数范围内，θ是一个可学习的权值，初始化为0。θ被引入是为了让网络先聚焦于局部信息，然后逐渐学习非局部信息，y是注意力模块的中间输出，具体为：

x表示前一层的输出，y是注意力模块的中间输出，i和j分别为输入信号输出位置所有可能的索引值，函数F表示计算i和所有的j的注意力。函数h表示输入特征图j位置序列变换，其公式为

W_p是可学习的

的权重矩阵(C是x的通道数，

是通过1×1卷积降维后的通道数，取

)，N表示x的位置数量。i和所有的j的注意力的具体计算公式为：

F(x_i,x_j)＝ELU(p(x_i)^Tq(x_j))

在这个模块中，序列变换通过函数p和q实现，其中

函数

表示批归一化层(BN)与激活函数(ELU)。在上述公式中，

和

是可学习的权值矩阵。C表示x的通道数量，

是经过1×1卷积后的通道数。为了提高存储效率和模型的准确性，选用了32个过滤器(C＝32)。此外，本发明通过1×1卷积进一步增强了自注意力层的输出维数，并将其加回输入的特征图。

步骤4：全局训练，将全局训练数据集输入到步骤3搭建的网络结构中，通过网络中堆叠的残差模块与自注意力模块对数据进行学习，最后通过Adam优化器进行损失函数的计算，更新网络权重，直到网络的loss不再下降，保存最佳的模型文件；

步骤5：迁移训练，在步骤4训练出的网络权重的基础上，通过690个训练集分别在全局训练产生的模型上进一步进行迁移训练，选用的迁移方式为不冻结任何网络层权重，对网络所有层的权重参数进行调整，迁移学习采用较小的学习率进行微调。