CN111696624B

CN111696624B - 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法

Info

Publication number: CN111696624B
Application number: CN202010510131.XA
Authority: CN
Inventors: 宫秀军; 杨超莹
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2022-07-12
Anticipated expiration: 2040-06-08
Also published as: CN111696624A

Abstract

本发明公开基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法，从蛋白质数据库选取数据集，并利用该选取的数据集对构建的深度学习模型进行训练以及测试，然后利用训练好的深度学习模型对蛋白质能否与DNA结合进行预测；其中，所述深度学习模型包括编码层，嵌入层，长短期记忆神经网络层(LSTM)，卷积神经网络层(CNN)和自注意力层(Self‑Attention)。本发明通过基于自注意力机制的深度学习模型，能够根据蛋白质的一级序列信息预测它是否具有与DNA结合的功能，并且找出具有结合功能的区域。

Description

基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法

技术领域

本发明涉及深度学习技术领域，特别是涉及一种基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法。

背景技术

DNA结合蛋白(DNA-binding proteins，DBP)是包含能与DNA结合的功能区域的蛋白质，广泛存在于各种生物体中，通过与单链或者双链的DNA结合，从而在生物细胞的生命活动和生物调控机制中发挥着至关重要的作用，包括DNA复制，DNA转录，DNA修复，DNA重组等生物功能。所以，有效确定DNA与蛋白质结合的功能区域不仅对蛋白质功能分析至关重要，而且对新药开发也发挥着至关重要作用。在一条能够与DNA结合的蛋白质序列中，存在一个或几个DNA结合结构域，该区域由几个氨基酸残基组成，能够与DNA产生相互作用，该区域一般被称为DNA结合域。DNA结合域在空间上能够与DNA骨架互补，为了满足与DNA结合的要求，该区域的物化性质如疏水性、带电荷程度和电势差等方面存在差异。一般来说，DNA结合蛋白包含蛋白质与DNA的物理相互作用所需的DNA结合结构域。

学者已经提出很多根据蛋白质一级序列信息来鉴定DNA能否与蛋白质进行结合的机器学习方法。通过转换和整合SVM用于预测DNA结合蛋白的不同规模的信息特征，也可以通过分析DNA 结合残基的结合倾向，使用具有混合特征集的随机森林分类器来完成预测，还可以利用蛋白质的基于序列的进化和基于结构的特征来识别其DNA结合功能。

但是随着蛋白质数量的日益剧增，而机器学习在处理大规模样本数据时存在明显的劣势，已经无法完成大规模数据的处理。最近几年，深度学习方法凭借在大规模数据处理中的优势，已经开始不断地应用到DNA结合蛋白的功能预测中。由卷积神经网络和长短期记忆神经网络组合而成的深度学习模型，通过卷积神经网络来检测蛋白质序列的功能域，通过长短期记忆网络来识别其长期依赖性，能够根据蛋白质地一级序列信息来预测它是否能够与DNA结合，在DNA结合蛋白预测上取得了较高的准确度。

目前，深度学习方法比机器学习方法能够取得更高的预测准确度，但是这两种类型的方法都不能完成功能注释，无法获得DNA与蛋白质相结合的功能域。

发明内容

本发明的目的是针对上述的背景技术中的问题，而提供一种基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法，使用深度学习模型完成DNA结合蛋白的鉴定和功能注释，深度学习模型在训练过程中使用不同规模的蛋白质数据集，训练完成后对蛋白质能否与DNA结合进行预测。

为实现本发明的目的所采用的技术方案是：

基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法，包括步骤：

从蛋白质数据库选取数据集，并利用该选取的数据集对构建的深度学习模型进行训练以及测试，然后利用训练好的深度学习模型对蛋白质能否与DNA结合进行预测；其中，所述的深度学习模型包括：

编码层，用于将氨基酸序列映射到固定长度的整数序列；

嵌入层，用于将编码层的整数序列转化成一个向量表示；

长短期记忆神经网络层，用于从嵌入层获得输入，通过遗忘门、输入门、输出门来确定信息的遗忘与保留，并且能够保留序列中氨基酸的位置关系，在输出序列中，返回全部时间步的隐藏状态值，输出固定长度的特征表示；

卷积神经网络层，用于从嵌入层获得输入，完成两次卷积操作，通过卷积核对输入矩阵完成卷积操作，卷积的结果为蛋白质序列的功能域特征，每次卷积之后是最大池化操作，从而获取卷积阶段的特征映像；

自注意力层，分别设置有长短期记忆神经网络和卷积神经网络后面，包括LSTM-Attention层和CNN-Attention层；LSTM-Attention层中，通过对输入矩阵中每个位置进行注意力计算，获取每个位置的权值，通过激活函数softmax归一化，将结果保存在氨基酸权重信息中，通过氨基酸权重信息与值向量相乘，输出加权的向量；CNN-Attention层的输入是CNN层的输出，输出是一个加权向量；将LSTM-Attention层和CNN-Attention层输出的加权向量连接合并成一个向量，通过Dense操作将该向量映射成一个具体的数字；通过激活层的sigmoid函数将输出映射到[0,1]之间，从而得到预测结果。

优选的，在深度学习模型的训练过程中，会根据深度学习模型的输出标签和真实标签之间的差距计算一个损失，使用Adam优化器和反向传播不断更新模型参数，最终达到稳定状态。

优选的，根据权重信息获取权重较高的连续氨基酸片段，然后使用上述的片段通过MEME工具获取有特定功能的氨基酸片段motif，使用TargetDNA工具获取蛋白质序列中的DNA结合位点，然后分析这些氨基酸片段motif和DNA结合位点之间的关系，找出与DNA结合位点高度吻合的氨基酸片段motif，然后通过MAST工具完成氨基酸片段motif在指定新正样本中的同源性搜索，分析这些同源蛋白的共同的功能域domain，然后分析氨基酸片段motif和功能域domain的关系，从而分析不同氨基酸片段motif的生物意义。

本发明通过基于自注意力机制的深度学习模型，能够根据蛋白质的一级序列信息预测它是否具有与DNA结合的功能，并且找出具有结合功能的区域。

附图说明

图1是本发明的基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法的深度学习模型的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于自注意力机制的深度学习模型，能够根据蛋白质的一级序列信息预测它是否具有与DNA结合的功能，并且找出具有结合功能的区域。

如图1所示，本发明基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法，包括步骤；

一、数据集的选取

本发明中使用到的数据集包括大规模平衡数据集(表1)、大规模非平衡数据集(表2)、小规模平衡数据集(表3)、小规模非平衡数据集(表4)、验证数据集(表5)和新正样本数据集(表6)。

上述的数据集都是从蛋白质数据库Swiss-prot中选取的，Swiss-prot是蛋白质数据库Uniprot中经过人工注释过的非冗余的数据库，该数据库中的数据都经过高质量的注释，只有真实可靠的高质量数据才会被收录到该数据库中。不同规模不同数据集上训练的过程中，选择80％作为训练集，剩下20％作为测试集。

Data set	DNA-binding	non-DNA-binding	Total
				Big Balance Data	42,256	42,310	84,567
Train set(0.8)	33,822	33,831	67,653
				Test set(0.2)	8,434	8,480	16,914

表1

表2

表3

表4

表5

表6

二、构建深度学习模型结构

本发明中使用到的深度学习模型包括：编码层，嵌入层，长短期记忆神经网络层(LSTM)，卷积神经网络层(CNN)和自注意力层(Self-Attention)。

编码层将氨基酸序列映射到固定长度的整数序列。在编码过程中，首先需要获取不同氨基酸的首字母，对这些首字母从小到大排序，然后将字母映射到一个自然数，因为自然界中的氨基酸总数为20个，所以编码的数字是1到20之间，对于非法的字符用0表示。

嵌入层将编码层的整数序列转化成一个向量表示。使用自然语言处理中的“word2vec”模型把蛋白质序中每个氨基酸映射成一个向量，其中语义相近的氨基酸“距离”也相近，可以表示每个词之间的关系。

长短期记忆神经网络层(LSTM)，从嵌入层获得输入，通过遗忘门、输入门、输出门来确定信息的遗忘与保留，并且能够保留序列中氨基酸的位置关系，在输出序列中，返回全部时间步的隐藏状态值，输出固定长度的特征表示；

卷积神经网络层(CNN)，从嵌入层获得输入，完成两次卷积操作，通过卷积核对输入矩阵完成卷积操作，卷积的结果为蛋白质序列的功能域特征，每次卷积之后是最大池化操作，从而获取卷积阶段的特征映像。

自注意力层，可以无视距离直接计算依赖关系，它出现在两个层中，分别是长短期记忆神经网络(LSTM)和卷积神经网络(CNN)后面，分别用LSTM-Attention和CNN-Attention表示，它们的输入都是一个特征矩阵，在LSTM-Attention层中，通过对矩阵中每个位置进行注意力计算，获取每个位置的权值，通过激活函数softmax归一化，将结果保存在氨基酸权重信息(Attention Score)中，通过Attention Score与值向量相乘，输出加权的向量。CNN-Attention层的输入是CNN层的输出，输出是一个加权向量；将两个注意力层LSTM-Attention层和CNN-Attention层输出的加权向量连接合并成一个向量，通过Dense操作(全连接层)将该向量映射成一个具体的数字；然后，在激活阶段，通过激活层的sigmoid函数将输出映射到[0,1]之间，从而得到预测结果。

其中，在训练过程中，会根据模型的输出值(输出标签)和真实的标签之间的差距算一个损失，使用Adam优化器和反向传播不断更新模型的参数，最终达到稳定状态。

其中，在该深度学习模型中，蛋白质通过编码层将不同氨基酸用数字表示，然后通过嵌入层将编码后的数字映射到固定大小的向量，通过长短期记忆网络和自注意力机制完成对蛋白质序列中每个氨基酸位点的权重计算，权重越高代表该位置与DNA结合位点越相关。然后，根据权重信息获取权重较高的连续氨基酸片段，然后使用这些小片段通过MEME工具获取有特定功能的氨基酸片段(motif)，使用TargetDNA工具获取蛋白质序列中的DNA结合位点，然后分析这些氨基酸片段(motif)和DNA结合位点之间的关系，找出与DNA结合位点高度吻合的氨基酸片段(motif)，然后通过MAST工具完成氨基酸片段motif在指定新正样本中的同源性搜索，分析这些同源蛋白的共同的功能域(domain)，然后分析氨基酸片段(motif)和功能域(domain)的关系，从而分析不同氨基酸片段(motif)的生物意义。

三、模型验证

在完成DNA结合蛋白鉴定的过程中，使用四种不同数据集来完成训练和测试，训练过程中，使用五折交叉验证来评估模型性能。对于五折交叉验证方法，首先将所有样本平均分成五份，每次实验中，选取其中4分作为训练集，剩下1份作为测试集。在每个数据集上，分别进行五次实验，然后计算这五次实验的均值和方差。结果如表7所示，其中Accuracy表示准确度，般用来评价模型的全局准确程度，Sensitivity表示敏感度，Specifificity表示特异性，MCC表示马修斯相关系数，是一个用来描述实际分类与预测分类的相关系数，取值范围为[-1,1]，取值越靠近1表示预测效果越好。

此外，使用AUC(Area Under Curve)来评估模型的性能，它通过ROC曲线和x轴之间的面积计算得来。另外，在独立测试集上完成验证时，为了与其他模型预测结果比较，增加一个评价指标recall(召回率)，表示预测正确的正样本个数占真正的正样本个数的比例。

可以看出，不同数据集上Accuracy的均值都在0.915以上，AUC的均值都在0.950以上。说明本发明提出的深度学习模型在不同类型的数据集上都具有非常好的预测能力。

表7

接下来，选择以上四种数据集中五次实验中效果最好的一次，在三种不同规模的验证集上完成验证，然后与其他深度学习模型比较。不同深度学习模型在训练过程中使用数据一样，都是随机选择80％作为训练集，剩下20％作为测试集，不同模型在大规模数据集上的性能比较如表8所示，不同模型在小规模数据集上的性能比较如表9所示。

表8

表9

通过将本发明深度学习模型与目前效果最好的两种深度学习模型相比，可以看出本发明的模型在不同的验证集上都具有出色的可靠性和通用性。

为了进一步验证本发明模型的性能，本发明使用Validation(186)作为独立测试集来对不同的机器学习模型和深度学习模型完成验证，模型主要有：iDNAProt，PSSM，DPP-PseAAC，iDNAProt-ES，CNN-LSTM，CNNBiLSTM。在独立测试集上的结果由表10所示。

表10

在大规模平衡数据集中找到的有效的motif的生物意义为：domain区域：Homeobox，功能键：Zinc finger C2H2-type，domain区域：MADS-box。这三个motif定位的蛋白质区域内，DNA结合位点所占的比率分别为80％，66.67％，55.17％。在小规模平衡数据集中找到的有效的motif的生物意义为：domain区域：Homeobox，功能键：Zinc finger C2H2-type。这三个motif定位的蛋白质区域内，DNA结合位点所占的比率分别为73.33％，48.28％。

Homeobox也称为同源域，由大约60个氨基酸组成，并参与DNA结合。Homeobox结构域是通过螺旋-转-螺旋类型的结构结合DNA，大多数含有Homeobox结构域的蛋白质均起着转录因子的作用，这意味着它们与其他基因结合并控制其活动。

“锌指”结构域是根据它特殊的“指”状四面体结构来命名的，其“指”状结构由若干保守的氨基酸残基和锌离子结合组成，在许多核酸结合蛋白中都发现了这些结构域，该结构域由25至30个氨基酸残基组成。目前存在很多包含锌指结构的蛋白质，该类蛋白质被称为锌指蛋白，是一类主要的真核蛋白家族。

MADS-box基因也存在于几乎所有的染色体中，由MADS-box编码组成的蛋白质都属于能够与DNA特异性结合的转录因子，存在于不同的生物体中，包括动物、植物、真菌等。同时MADS-box基因也涉及到植物的不同发育阶段，在转录调控和信号传导中起到了重要的作用。并且，MADS-box保守域还与二聚化有关，转录因子之间通常会形成蛋白二聚体或者多聚复合物，对基因调控具有重要意义。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法，其特征在于，包括以下步骤：

编码层，用于将氨基酸序列映射到固定长度的整数序列；

嵌入层，用于将编码层的整数序列转化成一个向量表示；

自注意力层，分别设置有长短期记忆神经网络和卷积神经网络后面，包括LSTM-Attention层和CNN-Attention层；LSTM-Attention层中，通过对输入矩阵中每个位置进行注意力计算，获取每个位置的权值，通过激活函数softmax归一化，将结果保存在氨基酸权重信息中，通过氨基酸权重信息与值向量相乘，输出加权的向量；CNN-Attention层的输入是CNN层的输出，输出是一个加权向量；将LSTM-Attention层和CNN-Attention层输出的加权向量连接合并成一个向量，通过Dense操作将该向量映射成一个具体的数字；通过激活层的sigmoid函数将输出映射到[0,1]之间，从而得到预测结果；

根据LSTM-Attention层获取到的权重信息，获取权重较高的连续氨基酸片段，然后使用上述的片段通过MEME工具获取有特定功能的氨基酸片段motif，使用TargetDNA工具获取蛋白质序列中的DNA结合位点，然后分析所述有特定功能的氨基酸片段motif和DNA结合位点之间的关系，找出与DNA结合位点高度吻合的氨基酸片段motif，然后通过MAST工具完成氨基酸片段motif在指定新正样本中的同源性搜索，分析同源蛋白的共同的功能域domain，然后分析氨基酸片段motif和功能域domain的关系，从而分析不同氨基酸片段motif的生物意义。

2.根据权利要求1所述基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法，其特征在于，在深度学习模型的训练过程中，会根据深度学习模型的输出标签和真实标签之间的差距计算一个损失，使用Adam优化器和反向传播不断更新模型参数，最终达到稳定状态。