CN111696624B - 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 - Google Patents
基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 Download PDFInfo
- Publication number
- CN111696624B CN111696624B CN202010510131.XA CN202010510131A CN111696624B CN 111696624 B CN111696624 B CN 111696624B CN 202010510131 A CN202010510131 A CN 202010510131A CN 111696624 B CN111696624 B CN 111696624B
- Authority
- CN
- China
- Prior art keywords
- layer
- deep learning
- attention
- amino acid
- protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006870 function Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 21
- 102000052510 DNA-Binding Proteins Human genes 0.000 title claims abstract description 17
- 230000007246 mechanism Effects 0.000 title claims abstract description 15
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 101710096438 DNA-binding protein Proteins 0.000 title claims abstract description 12
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 49
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 45
- 238000013136 deep learning model Methods 0.000 claims abstract description 26
- 108020004414 DNA Proteins 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 230000015654 memory Effects 0.000 claims abstract description 9
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 23
- 230000004568 DNA-binding Effects 0.000 claims description 22
- 150000001413 amino acids Chemical class 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000027455 binding Effects 0.000 description 8
- 108700020911 DNA-Binding Proteins Proteins 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 108091023040 Transcription factor Proteins 0.000 description 3
- 102000040945 Transcription factor Human genes 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 2
- 102000001420 Homeobox domains Human genes 0.000 description 2
- 108050009606 Homeobox domains Proteins 0.000 description 2
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 2
- 102000019374 Zinc finger C2H2-type Human genes 0.000 description 2
- 108050006929 Zinc finger C2H2-type Proteins 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000011701 zinc Substances 0.000 description 2
- 229910052725 zinc Inorganic materials 0.000 description 2
- 238000012270 DNA recombination Methods 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 102000009331 Homeodomain Proteins Human genes 0.000 description 1
- 108010048671 Homeodomain Proteins Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- PTFCDOFLOPIGGS-UHFFFAOYSA-N Zinc dication Chemical compound [Zn+2] PTFCDOFLOPIGGS-UHFFFAOYSA-N 0.000 description 1
- 101710185494 Zinc finger protein Proteins 0.000 description 1
- 102100023597 Zinc finger protein 816 Human genes 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006471 dimerization reaction Methods 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 102000044158 nucleic acid binding protein Human genes 0.000 description 1
- 108700020942 nucleic acid binding protein Proteins 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 239000013636 protein dimer Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,从蛋白质数据库选取数据集,并利用该选取的数据集对构建的深度学习模型进行训练以及测试,然后利用训练好的深度学习模型对蛋白质能否与DNA结合进行预测;其中,所述深度学习模型包括编码层,嵌入层,长短期记忆神经网络层(LSTM),卷积神经网络层(CNN)和自注意力层(Self‑Attention)。本发明通过基于自注意力机制的深度学习模型,能够根据蛋白质的一级序列信息预测它是否具有与DNA结合的功能,并且找出具有结合功能的区域。
Description
技术领域
本发明涉及深度学习技术领域,特别是涉及一种基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法。
背景技术
DNA结合蛋白(DNA-binding proteins,DBP)是包含能与DNA结合的功能区域的蛋白质,广泛存在于各种生物体中,通过与单链或者双链的DNA结合,从而在生物细胞的生命活动和生物调控机制中发挥着至关重要的作用,包括DNA复制,DNA转录,DNA修复,DNA重组等生物功能。所以,有效确定DNA与蛋白质结合的功能区域不仅对蛋白质功能分析至关重要,而且对新药开发也发挥着至关重要作用。在一条能够与DNA结合的蛋白质序列中,存在一个或几个DNA结合结构域,该区域由几个氨基酸残基组成,能够与DNA产生相互作用,该区域一般被称为DNA结合域。DNA结合域在空间上能够与DNA骨架互补,为了满足与DNA结合的要求,该区域的物化性质如疏水性、带电荷程度和电势差等方面存在差异。一般来说,DNA结合蛋白包含蛋白质与DNA的物理相互作用所需的DNA结合结构域。
学者已经提出很多根据蛋白质一级序列信息来鉴定DNA能否与蛋白质进行结合的机器学习方法。通过转换和整合SVM用于预测DNA结合蛋白的不同规模的信息特征,也可以通过分析DNA 结合残基的结合倾向,使用具有混合特征集的随机森林分类器来完成预测,还可以利用蛋白质的基于序列的进化和基于结构的特征来识别其DNA结合功能。
但是随着蛋白质数量的日益剧增,而机器学习在处理大规模样本数据时存在明显的劣势,已经无法完成大规模数据的处理。最近几年,深度学习方法凭借在大规模数据处理中的优势,已经开始不断地应用到DNA结合蛋白的功能预测中。由卷积神经网络和长短期记忆神经网络组合而成的深度学习模型,通过卷积神经网络来检测蛋白质序列的功能域,通过长短期记忆网络来识别其长期依赖性,能够根据蛋白质地一级序列信息来预测它是否能够与DNA结合,在DNA结合蛋白预测上取得了较高的准确度。
目前,深度学习方法比机器学习方法能够取得更高的预测准确度,但是这两种类型的方法都不能完成功能注释,无法获得DNA与蛋白质相结合的功能域。
发明内容
本发明的目的是针对上述的背景技术中的问题,而提供一种基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,使用深度学习模型完成DNA结合蛋白的鉴定和功能注释,深度学习模型在训练过程中使用不同规模的蛋白质数据集,训练完成后对蛋白质能否与DNA结合进行预测。
为实现本发明的目的所采用的技术方案是:
基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,包括步骤:
从蛋白质数据库选取数据集,并利用该选取的数据集对构建的深度学习模型进行训练以及测试,然后利用训练好的深度学习模型对蛋白质能否与DNA结合进行预测;其中,所述的深度学习模型包括:
编码层,用于将氨基酸序列映射到固定长度的整数序列;
嵌入层,用于将编码层的整数序列转化成一个向量表示;
长短期记忆神经网络层,用于从嵌入层获得输入,通过遗忘门、输入门、输出门来确定信息的遗忘与保留,并且能够保留序列中氨基酸的位置关系,在输出序列中,返回全部时间步的隐藏状态值,输出固定长度的特征表示;
卷积神经网络层,用于从嵌入层获得输入,完成两次卷积操作,通过卷积核对输入矩阵完成卷积操作,卷积的结果为蛋白质序列的功能域特征,每次卷积之后是最大池化操作,从而获取卷积阶段的特征映像;
自注意力层,分别设置有长短期记忆神经网络和卷积神经网络后面,包括LSTM-Attention层和CNN-Attention层;LSTM-Attention层中,通过对输入矩阵中每个位置进行注意力计算,获取每个位置的权值,通过激活函数softmax归一化,将结果保存在氨基酸权重信息中,通过氨基酸权重信息与值向量相乘,输出加权的向量;CNN-Attention层的输入是CNN层的输出,输出是一个加权向量;将LSTM-Attention层和CNN-Attention层输出的加权向量连接合并成一个向量,通过Dense操作将该向量映射成一个具体的数字;通过激活层的sigmoid函数将输出映射到[0,1]之间,从而得到预测结果。
优选的,在深度学习模型的训练过程中,会根据深度学习模型的输出标签和真实标签之间的差距计算一个损失,使用Adam优化器和反向传播不断更新模型参数,最终达到稳定状态。
优选的,根据权重信息获取权重较高的连续氨基酸片段,然后使用上述的片段通过MEME工具获取有特定功能的氨基酸片段motif,使用TargetDNA工具获取蛋白质序列中的DNA结合位点,然后分析这些氨基酸片段motif和DNA结合位点之间的关系,找出与DNA结合位点高度吻合的氨基酸片段motif,然后通过MAST工具完成氨基酸片段motif在指定新正样本中的同源性搜索,分析这些同源蛋白的共同的功能域domain,然后分析氨基酸片段motif和功能域domain的关系,从而分析不同氨基酸片段motif的生物意义。
本发明通过基于自注意力机制的深度学习模型,能够根据蛋白质的一级序列信息预测它是否具有与DNA结合的功能,并且找出具有结合功能的区域。
附图说明
图1是本发明的基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法的深度学习模型的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于自注意力机制的深度学习模型,能够根据蛋白质的一级序列信息预测它是否具有与DNA结合的功能,并且找出具有结合功能的区域。
如图1所示,本发明基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,包括步骤;
一、数据集的选取
本发明中使用到的数据集包括大规模平衡数据集(表1)、大规模非平衡数据集(表2)、小规模平衡数据集(表3)、小规模非平衡数据集(表4)、验证数据集(表5)和新正样本数据集(表6)。
上述的数据集都是从蛋白质数据库Swiss-prot中选取的,Swiss-prot是蛋白质数据库Uniprot中经过人工注释过的非冗余的数据库,该数据库中的数据都经过高质量的注释,只有真实可靠的高质量数据才会被收录到该数据库中。不同规模不同数据集上训练的过程中,选择80%作为训练集,剩下20%作为测试集。
Data set | DNA-binding | non-DNA-binding | Total |
Big Balance Data | 42,256 | 42,310 | 84,567 |
Train set(0.8) | 33,822 | 33,831 | 67,653 |
Test set(0.2) | 8,434 | 8,480 | 16,914 |
表1
表2
表3
表4
表5
表6
二、构建深度学习模型结构
本发明中使用到的深度学习模型包括:编码层,嵌入层,长短期记忆神经网络层(LSTM),卷积神经网络层(CNN)和自注意力层(Self-Attention)。
编码层将氨基酸序列映射到固定长度的整数序列。在编码过程中,首先需要获取不同氨基酸的首字母,对这些首字母从小到大排序,然后将字母映射到一个自然数,因为自然界中的氨基酸总数为20个,所以编码的数字是1到20之间,对于非法的字符用0表示。
嵌入层将编码层的整数序列转化成一个向量表示。使用自然语言处理中的“word2vec”模型把蛋白质序中每个氨基酸映射成一个向量,其中语义相近的氨基酸“距离”也相近,可以表示每个词之间的关系。
长短期记忆神经网络层(LSTM),从嵌入层获得输入,通过遗忘门、输入门、输出门来确定信息的遗忘与保留,并且能够保留序列中氨基酸的位置关系,在输出序列中,返回全部时间步的隐藏状态值,输出固定长度的特征表示;
卷积神经网络层(CNN),从嵌入层获得输入,完成两次卷积操作,通过卷积核对输入矩阵完成卷积操作,卷积的结果为蛋白质序列的功能域特征,每次卷积之后是最大池化操作,从而获取卷积阶段的特征映像。
自注意力层,可以无视距离直接计算依赖关系,它出现在两个层中,分别是长短期记忆神经网络(LSTM)和卷积神经网络(CNN)后面,分别用LSTM-Attention和CNN-Attention表示,它们的输入都是一个特征矩阵,在LSTM-Attention层中,通过对矩阵中每个位置进行注意力计算,获取每个位置的权值,通过激活函数softmax归一化,将结果保存在氨基酸权重信息(Attention Score)中,通过Attention Score与值向量相乘,输出加权的向量。CNN-Attention层的输入是CNN层的输出,输出是一个加权向量;将两个注意力层LSTM-Attention层和CNN-Attention层输出的加权向量连接合并成一个向量,通过Dense操作(全连接层)将该向量映射成一个具体的数字;然后,在激活阶段,通过激活层的sigmoid函数将输出映射到[0,1]之间,从而得到预测结果。
其中,在训练过程中,会根据模型的输出值(输出标签)和真实的标签之间的差距算一个损失,使用Adam优化器和反向传播不断更新模型的参数,最终达到稳定状态。
其中,在该深度学习模型中,蛋白质通过编码层将不同氨基酸用数字表示,然后通过嵌入层将编码后的数字映射到固定大小的向量,通过长短期记忆网络和自注意力机制完成对蛋白质序列中每个氨基酸位点的权重计算,权重越高代表该位置与DNA结合位点越相关。然后,根据权重信息获取权重较高的连续氨基酸片段,然后使用这些小片段通过MEME工具获取有特定功能的氨基酸片段(motif),使用TargetDNA工具获取蛋白质序列中的DNA结合位点,然后分析这些氨基酸片段(motif)和DNA结合位点之间的关系,找出与DNA结合位点高度吻合的氨基酸片段(motif),然后通过MAST工具完成氨基酸片段motif在指定新正样本中的同源性搜索,分析这些同源蛋白的共同的功能域(domain),然后分析氨基酸片段(motif)和功能域(domain)的关系,从而分析不同氨基酸片段(motif)的生物意义。
三、模型验证
在完成DNA结合蛋白鉴定的过程中,使用四种不同数据集来完成训练和测试,训练过程中,使用五折交叉验证来评估模型性能。对于五折交叉验证方法,首先将所有样本平均分成五份,每次实验中,选取其中4分作为训练集,剩下1份作为测试集。在每个数据集上,分别进行五次实验,然后计算这五次实验的均值和方差。结果如表7所示,其中Accuracy表示准确度,般用来评价模型的全局准确程度,Sensitivity表示敏感度,Specifificity表示特异性,MCC表示马修斯相关系数,是一个用来描述实际分类与预测分类的相关系数,取值范围为[-1,1],取值越靠近1表示预测效果越好。
此外,使用AUC(Area Under Curve)来评估模型的性能,它通过ROC曲线和x轴之间的面积计算得来。另外,在独立测试集上完成验证时,为了与其他模型预测结果比较,增加一个评价指标recall(召回率),表示预测正确的正样本个数占真正的正样本个数的比例。
可以看出,不同数据集上Accuracy的均值都在0.915以上,AUC的均值都在0.950以上。说明本发明提出的深度学习模型在不同类型的数据集上都具有非常好的预测能力。
表7
接下来,选择以上四种数据集中五次实验中效果最好的一次,在三种不同规模的验证集上完成验证,然后与其他深度学习模型比较。不同深度学习模型在训练过程中使用数据一样,都是随机选择80%作为训练集,剩下20%作为测试集,不同模型在大规模数据集上的性能比较如表8所示,不同模型在小规模数据集上的性能比较如表9所示。
表8
表9
通过将本发明深度学习模型与目前效果最好的两种深度学习模型相比,可以看出本发明的模型在不同的验证集上都具有出色的可靠性和通用性。
为了进一步验证本发明模型的性能,本发明使用Validation(186)作为独立测试集来对不同的机器学习模型和深度学习模型完成验证,模型主要有:iDNAProt,PSSM,DPP-PseAAC,iDNAProt-ES,CNN-LSTM,CNNBiLSTM。在独立测试集上的结果由表10所示。
表10
在大规模平衡数据集中找到的有效的motif的生物意义为:domain区域:Homeobox,功能键:Zinc finger C2H2-type,domain区域:MADS-box。这三个motif定位的蛋白质区域内,DNA结合位点所占的比率分别为80%,66.67%,55.17%。在小规模平衡数据集中找到的有效的motif的生物意义为:domain区域:Homeobox,功能键:Zinc finger C2H2-type。这三个motif定位的蛋白质区域内,DNA结合位点所占的比率分别为73.33%,48.28%。
Homeobox也称为同源域,由大约60个氨基酸组成,并参与DNA结合。Homeobox结构域是通过螺旋-转-螺旋类型的结构结合DNA,大多数含有Homeobox结构域的蛋白质均起着转录因子的作用,这意味着它们与其他基因结合并控制其活动。
“锌指”结构域是根据它特殊的“指”状四面体结构来命名的,其“指”状结构由若干保守的氨基酸残基和锌离子结合组成,在许多核酸结合蛋白中都发现了这些结构域,该结构域由25至30个氨基酸残基组成。目前存在很多包含锌指结构的蛋白质,该类蛋白质被称为锌指蛋白,是一类主要的真核蛋白家族。
MADS-box基因也存在于几乎所有的染色体中,由MADS-box编码组成的蛋白质都属于能够与DNA特异性结合的转录因子,存在于不同的生物体中,包括动物、植物、真菌等。同时MADS-box基因也涉及到植物的不同发育阶段,在转录调控和信号传导中起到了重要的作用。并且,MADS-box保守域还与二聚化有关,转录因子之间通常会形成蛋白二聚体或者多聚复合物,对基因调控具有重要意义。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (2)
1.基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,其特征在于,包括以下步骤:
从蛋白质数据库选取数据集,并利用该选取的数据集对构建的深度学习模型进行训练以及测试,然后利用训练好的深度学习模型对蛋白质能否与DNA结合进行预测;其中,所述的深度学习模型包括:
编码层,用于将氨基酸序列映射到固定长度的整数序列;
嵌入层,用于将编码层的整数序列转化成一个向量表示;
长短期记忆神经网络层,用于从嵌入层获得输入,通过遗忘门、输入门、输出门来确定信息的遗忘与保留,并且能够保留序列中氨基酸的位置关系,在输出序列中,返回全部时间步的隐藏状态值,输出固定长度的特征表示;
卷积神经网络层,用于从嵌入层获得输入,完成两次卷积操作,通过卷积核对输入矩阵完成卷积操作,卷积的结果为蛋白质序列的功能域特征,每次卷积之后是最大池化操作,从而获取卷积阶段的特征映像;
自注意力层,分别设置有长短期记忆神经网络和卷积神经网络后面,包括LSTM-Attention层和CNN-Attention层;LSTM-Attention层中,通过对输入矩阵中每个位置进行注意力计算,获取每个位置的权值,通过激活函数softmax归一化,将结果保存在氨基酸权重信息中,通过氨基酸权重信息与值向量相乘,输出加权的向量;CNN-Attention层的输入是CNN层的输出,输出是一个加权向量;将LSTM-Attention层和CNN-Attention层输出的加权向量连接合并成一个向量,通过Dense操作将该向量映射成一个具体的数字;通过激活层的sigmoid函数将输出映射到[0,1]之间,从而得到预测结果;
根据LSTM-Attention层获取到的权重信息,获取权重较高的连续氨基酸片段,然后使用上述的片段通过MEME工具获取有特定功能的氨基酸片段motif,使用TargetDNA工具获取蛋白质序列中的DNA结合位点,然后分析所述有特定功能的氨基酸片段motif和DNA结合位点之间的关系,找出与DNA结合位点高度吻合的氨基酸片段motif,然后通过MAST工具完成氨基酸片段motif在指定新正样本中的同源性搜索,分析同源蛋白的共同的功能域domain,然后分析氨基酸片段motif和功能域domain的关系,从而分析不同氨基酸片段motif的生物意义。
2.根据权利要求1所述基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,其特征在于,在深度学习模型的训练过程中,会根据深度学习模型的输出标签和真实标签之间的差距计算一个损失,使用Adam优化器和反向传播不断更新模型参数,最终达到稳定状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010510131.XA CN111696624B (zh) | 2020-06-08 | 2020-06-08 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010510131.XA CN111696624B (zh) | 2020-06-08 | 2020-06-08 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696624A CN111696624A (zh) | 2020-09-22 |
CN111696624B true CN111696624B (zh) | 2022-07-12 |
Family
ID=72479685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010510131.XA Expired - Fee Related CN111696624B (zh) | 2020-06-08 | 2020-06-08 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696624B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397139B (zh) * | 2020-11-13 | 2023-08-01 | 中山大学 | 一种通过序列预测抗体上结合位点的深度学习方法 |
WO2022109462A1 (en) * | 2020-11-23 | 2022-05-27 | NE47 Bio, Inc. | Protein database search using learned representations |
CN112562784B (zh) * | 2020-12-14 | 2023-08-15 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
CN112289370B (zh) * | 2020-12-28 | 2021-03-23 | 武汉金开瑞生物工程有限公司 | 一种蛋白质结构预测方法及装置 |
CN112837747B (zh) * | 2021-01-13 | 2022-07-12 | 上海交通大学 | 基于注意力孪生网络的蛋白质结合位点预测方法 |
CN113096732A (zh) * | 2021-05-11 | 2021-07-09 | 同济大学 | 一种基于深度嵌入卷积神经网络的模体挖掘方法 |
CN113096733B (zh) * | 2021-05-11 | 2022-09-30 | 同济大学 | 一种基于序列和形状信息深度融合的模体挖掘方法 |
CN113178229B (zh) * | 2021-05-31 | 2022-03-08 | 吉林大学 | 一种基于深度学习的rna和蛋白质结合位点的识别方法 |
CN113240585B (zh) * | 2021-06-01 | 2024-05-24 | 平安科技(深圳)有限公司 | 基于生成对抗网络的图像处理方法、装置及存储介质 |
CN113393900B (zh) * | 2021-06-09 | 2022-08-02 | 吉林大学 | 基于改进Transformer模型的RNA状态推断研究方法 |
CN113724780B (zh) * | 2021-09-16 | 2023-10-13 | 上海交通大学 | 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法 |
WO2023070493A1 (zh) * | 2021-10-29 | 2023-05-04 | 京东方科技集团股份有限公司 | Rna定位预测方法、装置及存储介质 |
CN114283888A (zh) * | 2021-12-22 | 2022-04-05 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
CN114842914B (zh) * | 2022-04-24 | 2024-04-05 | 山东大学 | 一种基于深度学习的染色质环预测方法及系统 |
CN115019893A (zh) * | 2022-06-14 | 2022-09-06 | 邵阳学院 | 一种基于双向长短时记忆和注意机制的增强子识别方法 |
CN116072227B (zh) * | 2023-03-07 | 2023-06-20 | 中国海洋大学 | 海洋营养成分生物合成途径挖掘方法、装置、设备和介质 |
CN116805514B (zh) * | 2023-08-25 | 2023-11-21 | 鲁东大学 | 一种基于深度学习的dna序列功能预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102139095A (zh) * | 2010-01-29 | 2011-08-03 | 上海泽生科技开发有限公司 | 神经调节蛋白用于预防、治疗或延迟心脏缺血再灌注损伤的方法和组合物 |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN109559781A (zh) * | 2018-10-24 | 2019-04-02 | 成都信息工程大学 | 一种预测dna-蛋白质结合的双向lstm和cnn模型 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180215805A1 (en) * | 2015-01-29 | 2018-08-02 | Nexvet Australia Pty Ltd | Therapeutic and diagnostic agents |
-
2020
- 2020-06-08 CN CN202010510131.XA patent/CN111696624B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102139095A (zh) * | 2010-01-29 | 2011-08-03 | 上海泽生科技开发有限公司 | 神经调节蛋白用于预防、治疗或延迟心脏缺血再灌注损伤的方法和组合物 |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN109559781A (zh) * | 2018-10-24 | 2019-04-02 | 成都信息工程大学 | 一种预测dna-蛋白质结合的双向lstm和cnn模型 |
Non-Patent Citations (3)
Title |
---|
"Combining evidence using p-values: application to sequence homology searches";Bailey T L等;《Bioinformatics》;19981230;全文 * |
"On the prediction of DNA-binding proteins only from primary sequences: A deep learning approach";Yu-Hui Qu等;《PLOS ONE》;20171229;第1-16页 * |
申克孢子丝菌4Hppd基因结构功能的生物信息学分析;吴晓雁等;《皮肤性病诊疗学杂志》;20200428(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111696624A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696624B (zh) | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 | |
CN107563150B (zh) | 蛋白质结合位点的预测方法、装置、设备及存储介质 | |
Emms et al. | OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy | |
Hu et al. | Predicting protein-DNA binding residues by weightedly combining sequence-based features and boosting multiple SVMs | |
CN109671469B (zh) | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 | |
CN113593631A (zh) | 一种预测蛋白质-多肽结合位点的方法及系统 | |
Hu et al. | An improved deep learning method for predicting DNA-binding proteins based on contextual features in amino acid sequences | |
Keleş et al. | Regulatory motif finding by logic regression | |
KR101809599B1 (ko) | 약물과 단백질 간 관계 분석 방법 및 장치 | |
CN108009405A (zh) | 一种基于机器学习技术预测细菌外膜蛋白质的方法 | |
CN109559781A (zh) | 一种预测dna-蛋白质结合的双向lstm和cnn模型 | |
CN110379464B (zh) | 一种细菌中dna转录终止子的预测方法 | |
Li et al. | 3D representations of amino acids—applications to protein sequence comparison and classification | |
Chaudhari et al. | DeepRMethylSite: a deep learning based approach for prediction of arginine methylation sites in proteins | |
CN108710784A (zh) | 一种基因转录变异几率及变异方向的算法 | |
Zhang et al. | DiscMLA: an efficient discriminative motif learning algorithm over high-throughput datasets | |
CN112927753A (zh) | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 | |
US20020072887A1 (en) | Interaction fingerprint annotations from protein structure models | |
CN115472221A (zh) | 一种基于深度学习的蛋白质适应度预测方法 | |
CN109215737A (zh) | 蛋白质特征提取、功能模型生成、功能预测的方法及装置 | |
More et al. | matK-QR classifier: a patterns based approach for plant species identification | |
Raza et al. | iPro-TCN: prediction of DNA promoters recognition and their strength using temporal convolutional network | |
Wang et al. | Prediction of RNA-protein interactions using conjoint triad feature and chaos game representation | |
Wang et al. | Prediction of DNA-binding residues from sequence features | |
CN111048145B (zh) | 蛋白质预测模型的生成方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220712 |