CN111696624B - 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 - Google Patents

基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 Download PDF

Info

Publication number
CN111696624B
CN111696624B CN202010510131.XA CN202010510131A CN111696624B CN 111696624 B CN111696624 B CN 111696624B CN 202010510131 A CN202010510131 A CN 202010510131A CN 111696624 B CN111696624 B CN 111696624B
Authority
CN
China
Prior art keywords
layer
deep learning
attention
amino acid
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010510131.XA
Other languages
English (en)
Other versions
CN111696624A (zh
Inventor
宫秀军
杨超莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010510131.XA priority Critical patent/CN111696624B/zh
Publication of CN111696624A publication Critical patent/CN111696624A/zh
Application granted granted Critical
Publication of CN111696624B publication Critical patent/CN111696624B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,从蛋白质数据库选取数据集,并利用该选取的数据集对构建的深度学习模型进行训练以及测试,然后利用训练好的深度学习模型对蛋白质能否与DNA结合进行预测;其中,所述深度学习模型包括编码层,嵌入层,长短期记忆神经网络层(LSTM),卷积神经网络层(CNN)和自注意力层(Self‑Attention)。本发明通过基于自注意力机制的深度学习模型,能够根据蛋白质的一级序列信息预测它是否具有与DNA结合的功能,并且找出具有结合功能的区域。

Description

基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学 习方法
技术领域
本发明涉及深度学习技术领域,特别是涉及一种基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法。
背景技术
DNA结合蛋白(DNA-binding proteins,DBP)是包含能与DNA结合的功能区域的蛋白质,广泛存在于各种生物体中,通过与单链或者双链的DNA结合,从而在生物细胞的生命活动和生物调控机制中发挥着至关重要的作用,包括DNA复制,DNA转录,DNA修复,DNA重组等生物功能。所以,有效确定DNA与蛋白质结合的功能区域不仅对蛋白质功能分析至关重要,而且对新药开发也发挥着至关重要作用。在一条能够与DNA结合的蛋白质序列中,存在一个或几个DNA结合结构域,该区域由几个氨基酸残基组成,能够与DNA产生相互作用,该区域一般被称为DNA结合域。DNA结合域在空间上能够与DNA骨架互补,为了满足与DNA结合的要求,该区域的物化性质如疏水性、带电荷程度和电势差等方面存在差异。一般来说,DNA结合蛋白包含蛋白质与DNA的物理相互作用所需的DNA结合结构域。
学者已经提出很多根据蛋白质一级序列信息来鉴定DNA能否与蛋白质进行结合的机器学习方法。通过转换和整合SVM用于预测DNA结合蛋白的不同规模的信息特征,也可以通过分析DNA 结合残基的结合倾向,使用具有混合特征集的随机森林分类器来完成预测,还可以利用蛋白质的基于序列的进化和基于结构的特征来识别其DNA结合功能。
但是随着蛋白质数量的日益剧增,而机器学习在处理大规模样本数据时存在明显的劣势,已经无法完成大规模数据的处理。最近几年,深度学习方法凭借在大规模数据处理中的优势,已经开始不断地应用到DNA结合蛋白的功能预测中。由卷积神经网络和长短期记忆神经网络组合而成的深度学习模型,通过卷积神经网络来检测蛋白质序列的功能域,通过长短期记忆网络来识别其长期依赖性,能够根据蛋白质地一级序列信息来预测它是否能够与DNA结合,在DNA结合蛋白预测上取得了较高的准确度。
目前,深度学习方法比机器学习方法能够取得更高的预测准确度,但是这两种类型的方法都不能完成功能注释,无法获得DNA与蛋白质相结合的功能域。
发明内容
本发明的目的是针对上述的背景技术中的问题,而提供一种基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,使用深度学习模型完成DNA结合蛋白的鉴定和功能注释,深度学习模型在训练过程中使用不同规模的蛋白质数据集,训练完成后对蛋白质能否与DNA结合进行预测。
为实现本发明的目的所采用的技术方案是:
基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,包括步骤:
从蛋白质数据库选取数据集,并利用该选取的数据集对构建的深度学习模型进行训练以及测试,然后利用训练好的深度学习模型对蛋白质能否与DNA结合进行预测;其中,所述的深度学习模型包括:
编码层,用于将氨基酸序列映射到固定长度的整数序列;
嵌入层,用于将编码层的整数序列转化成一个向量表示;
长短期记忆神经网络层,用于从嵌入层获得输入,通过遗忘门、输入门、输出门来确定信息的遗忘与保留,并且能够保留序列中氨基酸的位置关系,在输出序列中,返回全部时间步的隐藏状态值,输出固定长度的特征表示;
卷积神经网络层,用于从嵌入层获得输入,完成两次卷积操作,通过卷积核对输入矩阵完成卷积操作,卷积的结果为蛋白质序列的功能域特征,每次卷积之后是最大池化操作,从而获取卷积阶段的特征映像;
自注意力层,分别设置有长短期记忆神经网络和卷积神经网络后面,包括LSTM-Attention层和CNN-Attention层;LSTM-Attention层中,通过对输入矩阵中每个位置进行注意力计算,获取每个位置的权值,通过激活函数softmax归一化,将结果保存在氨基酸权重信息中,通过氨基酸权重信息与值向量相乘,输出加权的向量;CNN-Attention层的输入是CNN层的输出,输出是一个加权向量;将LSTM-Attention层和CNN-Attention层输出的加权向量连接合并成一个向量,通过Dense操作将该向量映射成一个具体的数字;通过激活层的sigmoid函数将输出映射到[0,1]之间,从而得到预测结果。
优选的,在深度学习模型的训练过程中,会根据深度学习模型的输出标签和真实标签之间的差距计算一个损失,使用Adam优化器和反向传播不断更新模型参数,最终达到稳定状态。
优选的,根据权重信息获取权重较高的连续氨基酸片段,然后使用上述的片段通过MEME工具获取有特定功能的氨基酸片段motif,使用TargetDNA工具获取蛋白质序列中的DNA结合位点,然后分析这些氨基酸片段motif和DNA结合位点之间的关系,找出与DNA结合位点高度吻合的氨基酸片段motif,然后通过MAST工具完成氨基酸片段motif在指定新正样本中的同源性搜索,分析这些同源蛋白的共同的功能域domain,然后分析氨基酸片段motif和功能域domain的关系,从而分析不同氨基酸片段motif的生物意义。
本发明通过基于自注意力机制的深度学习模型,能够根据蛋白质的一级序列信息预测它是否具有与DNA结合的功能,并且找出具有结合功能的区域。
附图说明
图1是本发明的基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法的深度学习模型的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于自注意力机制的深度学习模型,能够根据蛋白质的一级序列信息预测它是否具有与DNA结合的功能,并且找出具有结合功能的区域。
如图1所示,本发明基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,包括步骤;
一、数据集的选取
本发明中使用到的数据集包括大规模平衡数据集(表1)、大规模非平衡数据集(表2)、小规模平衡数据集(表3)、小规模非平衡数据集(表4)、验证数据集(表5)和新正样本数据集(表6)。
上述的数据集都是从蛋白质数据库Swiss-prot中选取的,Swiss-prot是蛋白质数据库Uniprot中经过人工注释过的非冗余的数据库,该数据库中的数据都经过高质量的注释,只有真实可靠的高质量数据才会被收录到该数据库中。不同规模不同数据集上训练的过程中,选择80%作为训练集,剩下20%作为测试集。
Data set DNA-binding non-DNA-binding Total
Big Balance Data 42,256 42,310 84,567
Train set(0.8) 33,822 33,831 67,653
Test set(0.2) 8,434 8,480 16,914
表1
Figure GDA0003610002210000041
Figure GDA0003610002210000055
表2
Figure GDA0003610002210000051
表3
Figure GDA0003610002210000052
表4
Figure GDA0003610002210000053
表5
Figure GDA0003610002210000054
表6
二、构建深度学习模型结构
本发明中使用到的深度学习模型包括:编码层,嵌入层,长短期记忆神经网络层(LSTM),卷积神经网络层(CNN)和自注意力层(Self-Attention)。
编码层将氨基酸序列映射到固定长度的整数序列。在编码过程中,首先需要获取不同氨基酸的首字母,对这些首字母从小到大排序,然后将字母映射到一个自然数,因为自然界中的氨基酸总数为20个,所以编码的数字是1到20之间,对于非法的字符用0表示。
嵌入层将编码层的整数序列转化成一个向量表示。使用自然语言处理中的“word2vec”模型把蛋白质序中每个氨基酸映射成一个向量,其中语义相近的氨基酸“距离”也相近,可以表示每个词之间的关系。
长短期记忆神经网络层(LSTM),从嵌入层获得输入,通过遗忘门、输入门、输出门来确定信息的遗忘与保留,并且能够保留序列中氨基酸的位置关系,在输出序列中,返回全部时间步的隐藏状态值,输出固定长度的特征表示;
卷积神经网络层(CNN),从嵌入层获得输入,完成两次卷积操作,通过卷积核对输入矩阵完成卷积操作,卷积的结果为蛋白质序列的功能域特征,每次卷积之后是最大池化操作,从而获取卷积阶段的特征映像。
自注意力层,可以无视距离直接计算依赖关系,它出现在两个层中,分别是长短期记忆神经网络(LSTM)和卷积神经网络(CNN)后面,分别用LSTM-Attention和CNN-Attention表示,它们的输入都是一个特征矩阵,在LSTM-Attention层中,通过对矩阵中每个位置进行注意力计算,获取每个位置的权值,通过激活函数softmax归一化,将结果保存在氨基酸权重信息(Attention Score)中,通过Attention Score与值向量相乘,输出加权的向量。CNN-Attention层的输入是CNN层的输出,输出是一个加权向量;将两个注意力层LSTM-Attention层和CNN-Attention层输出的加权向量连接合并成一个向量,通过Dense操作(全连接层)将该向量映射成一个具体的数字;然后,在激活阶段,通过激活层的sigmoid函数将输出映射到[0,1]之间,从而得到预测结果。
其中,在训练过程中,会根据模型的输出值(输出标签)和真实的标签之间的差距算一个损失,使用Adam优化器和反向传播不断更新模型的参数,最终达到稳定状态。
其中,在该深度学习模型中,蛋白质通过编码层将不同氨基酸用数字表示,然后通过嵌入层将编码后的数字映射到固定大小的向量,通过长短期记忆网络和自注意力机制完成对蛋白质序列中每个氨基酸位点的权重计算,权重越高代表该位置与DNA结合位点越相关。然后,根据权重信息获取权重较高的连续氨基酸片段,然后使用这些小片段通过MEME工具获取有特定功能的氨基酸片段(motif),使用TargetDNA工具获取蛋白质序列中的DNA结合位点,然后分析这些氨基酸片段(motif)和DNA结合位点之间的关系,找出与DNA结合位点高度吻合的氨基酸片段(motif),然后通过MAST工具完成氨基酸片段motif在指定新正样本中的同源性搜索,分析这些同源蛋白的共同的功能域(domain),然后分析氨基酸片段(motif)和功能域(domain)的关系,从而分析不同氨基酸片段(motif)的生物意义。
三、模型验证
在完成DNA结合蛋白鉴定的过程中,使用四种不同数据集来完成训练和测试,训练过程中,使用五折交叉验证来评估模型性能。对于五折交叉验证方法,首先将所有样本平均分成五份,每次实验中,选取其中4分作为训练集,剩下1份作为测试集。在每个数据集上,分别进行五次实验,然后计算这五次实验的均值和方差。结果如表7所示,其中Accuracy表示准确度,般用来评价模型的全局准确程度,Sensitivity表示敏感度,Specifificity表示特异性,MCC表示马修斯相关系数,是一个用来描述实际分类与预测分类的相关系数,取值范围为[-1,1],取值越靠近1表示预测效果越好。
此外,使用AUC(Area Under Curve)来评估模型的性能,它通过ROC曲线和x轴之间的面积计算得来。另外,在独立测试集上完成验证时,为了与其他模型预测结果比较,增加一个评价指标recall(召回率),表示预测正确的正样本个数占真正的正样本个数的比例。
可以看出,不同数据集上Accuracy的均值都在0.915以上,AUC的均值都在0.950以上。说明本发明提出的深度学习模型在不同类型的数据集上都具有非常好的预测能力。
Figure GDA0003610002210000071
Figure GDA0003610002210000081
表7
接下来,选择以上四种数据集中五次实验中效果最好的一次,在三种不同规模的验证集上完成验证,然后与其他深度学习模型比较。不同深度学习模型在训练过程中使用数据一样,都是随机选择80%作为训练集,剩下20%作为测试集,不同模型在大规模数据集上的性能比较如表8所示,不同模型在小规模数据集上的性能比较如表9所示。
Figure GDA0003610002210000082
表8
Figure GDA0003610002210000083
Figure GDA0003610002210000091
表9
通过将本发明深度学习模型与目前效果最好的两种深度学习模型相比,可以看出本发明的模型在不同的验证集上都具有出色的可靠性和通用性。
为了进一步验证本发明模型的性能,本发明使用Validation(186)作为独立测试集来对不同的机器学习模型和深度学习模型完成验证,模型主要有:iDNAProt,PSSM,DPP-PseAAC,iDNAProt-ES,CNN-LSTM,CNNBiLSTM。在独立测试集上的结果由表10所示。
Figure GDA0003610002210000092
表10
在大规模平衡数据集中找到的有效的motif的生物意义为:domain区域:Homeobox,功能键:Zinc finger C2H2-type,domain区域:MADS-box。这三个motif定位的蛋白质区域内,DNA结合位点所占的比率分别为80%,66.67%,55.17%。在小规模平衡数据集中找到的有效的motif的生物意义为:domain区域:Homeobox,功能键:Zinc finger C2H2-type。这三个motif定位的蛋白质区域内,DNA结合位点所占的比率分别为73.33%,48.28%。
Homeobox也称为同源域,由大约60个氨基酸组成,并参与DNA结合。Homeobox结构域是通过螺旋-转-螺旋类型的结构结合DNA,大多数含有Homeobox结构域的蛋白质均起着转录因子的作用,这意味着它们与其他基因结合并控制其活动。
“锌指”结构域是根据它特殊的“指”状四面体结构来命名的,其“指”状结构由若干保守的氨基酸残基和锌离子结合组成,在许多核酸结合蛋白中都发现了这些结构域,该结构域由25至30个氨基酸残基组成。目前存在很多包含锌指结构的蛋白质,该类蛋白质被称为锌指蛋白,是一类主要的真核蛋白家族。
MADS-box基因也存在于几乎所有的染色体中,由MADS-box编码组成的蛋白质都属于能够与DNA特异性结合的转录因子,存在于不同的生物体中,包括动物、植物、真菌等。同时MADS-box基因也涉及到植物的不同发育阶段,在转录调控和信号传导中起到了重要的作用。并且,MADS-box保守域还与二聚化有关,转录因子之间通常会形成蛋白二聚体或者多聚复合物,对基因调控具有重要意义。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (2)

1.基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,其特征在于,包括以下步骤:
从蛋白质数据库选取数据集,并利用该选取的数据集对构建的深度学习模型进行训练以及测试,然后利用训练好的深度学习模型对蛋白质能否与DNA结合进行预测;其中,所述的深度学习模型包括:
编码层,用于将氨基酸序列映射到固定长度的整数序列;
嵌入层,用于将编码层的整数序列转化成一个向量表示;
长短期记忆神经网络层,用于从嵌入层获得输入,通过遗忘门、输入门、输出门来确定信息的遗忘与保留,并且能够保留序列中氨基酸的位置关系,在输出序列中,返回全部时间步的隐藏状态值,输出固定长度的特征表示;
卷积神经网络层,用于从嵌入层获得输入,完成两次卷积操作,通过卷积核对输入矩阵完成卷积操作,卷积的结果为蛋白质序列的功能域特征,每次卷积之后是最大池化操作,从而获取卷积阶段的特征映像;
自注意力层,分别设置有长短期记忆神经网络和卷积神经网络后面,包括LSTM-Attention层和CNN-Attention层;LSTM-Attention层中,通过对输入矩阵中每个位置进行注意力计算,获取每个位置的权值,通过激活函数softmax归一化,将结果保存在氨基酸权重信息中,通过氨基酸权重信息与值向量相乘,输出加权的向量;CNN-Attention层的输入是CNN层的输出,输出是一个加权向量;将LSTM-Attention层和CNN-Attention层输出的加权向量连接合并成一个向量,通过Dense操作将该向量映射成一个具体的数字;通过激活层的sigmoid函数将输出映射到[0,1]之间,从而得到预测结果;
根据LSTM-Attention层获取到的权重信息,获取权重较高的连续氨基酸片段,然后使用上述的片段通过MEME工具获取有特定功能的氨基酸片段motif,使用TargetDNA工具获取蛋白质序列中的DNA结合位点,然后分析所述有特定功能的氨基酸片段motif和DNA结合位点之间的关系,找出与DNA结合位点高度吻合的氨基酸片段motif,然后通过MAST工具完成氨基酸片段motif在指定新正样本中的同源性搜索,分析同源蛋白的共同的功能域domain,然后分析氨基酸片段motif和功能域domain的关系,从而分析不同氨基酸片段motif的生物意义。
2.根据权利要求1所述基于自注意力机制的DNA结合蛋白鉴定和功能注释的深度学习方法,其特征在于,在深度学习模型的训练过程中,会根据深度学习模型的输出标签和真实标签之间的差距计算一个损失,使用Adam优化器和反向传播不断更新模型参数,最终达到稳定状态。
CN202010510131.XA 2020-06-08 2020-06-08 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 Expired - Fee Related CN111696624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010510131.XA CN111696624B (zh) 2020-06-08 2020-06-08 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010510131.XA CN111696624B (zh) 2020-06-08 2020-06-08 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法

Publications (2)

Publication Number Publication Date
CN111696624A CN111696624A (zh) 2020-09-22
CN111696624B true CN111696624B (zh) 2022-07-12

Family

ID=72479685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010510131.XA Expired - Fee Related CN111696624B (zh) 2020-06-08 2020-06-08 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法

Country Status (1)

Country Link
CN (1) CN111696624B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112397139B (zh) * 2020-11-13 2023-08-01 中山大学 一种通过序列预测抗体上结合位点的深度学习方法
WO2022109462A1 (en) * 2020-11-23 2022-05-27 NE47 Bio, Inc. Protein database search using learned representations
CN112562784B (zh) * 2020-12-14 2023-08-15 中山大学 一种结合多任务学习和自注意力机制的蛋白质功能预测方法
CN112289370B (zh) * 2020-12-28 2021-03-23 武汉金开瑞生物工程有限公司 一种蛋白质结构预测方法及装置
CN112837747B (zh) * 2021-01-13 2022-07-12 上海交通大学 基于注意力孪生网络的蛋白质结合位点预测方法
CN113096732A (zh) * 2021-05-11 2021-07-09 同济大学 一种基于深度嵌入卷积神经网络的模体挖掘方法
CN113096733B (zh) * 2021-05-11 2022-09-30 同济大学 一种基于序列和形状信息深度融合的模体挖掘方法
CN113178229B (zh) * 2021-05-31 2022-03-08 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法
CN113240585B (zh) * 2021-06-01 2024-05-24 平安科技(深圳)有限公司 基于生成对抗网络的图像处理方法、装置及存储介质
CN113393900B (zh) * 2021-06-09 2022-08-02 吉林大学 基于改进Transformer模型的RNA状态推断研究方法
CN113724780B (zh) * 2021-09-16 2023-10-13 上海交通大学 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法
WO2023070493A1 (zh) * 2021-10-29 2023-05-04 京东方科技集团股份有限公司 Rna定位预测方法、装置及存储介质
CN114283888A (zh) * 2021-12-22 2022-04-05 山东大学 基于分层自注意力机制的差异表达基因预测系统
CN114842914B (zh) * 2022-04-24 2024-04-05 山东大学 一种基于深度学习的染色质环预测方法及系统
CN115019893A (zh) * 2022-06-14 2022-09-06 邵阳学院 一种基于双向长短时记忆和注意机制的增强子识别方法
CN116072227B (zh) * 2023-03-07 2023-06-20 中国海洋大学 海洋营养成分生物合成途径挖掘方法、装置、设备和介质
CN116805514B (zh) * 2023-08-25 2023-11-21 鲁东大学 一种基于深度学习的dna序列功能预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102139095A (zh) * 2010-01-29 2011-08-03 上海泽生科技开发有限公司 神经调节蛋白用于预防、治疗或延迟心脏缺血再灌注损伤的方法和组合物
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109559781A (zh) * 2018-10-24 2019-04-02 成都信息工程大学 一种预测dna-蛋白质结合的双向lstm和cnn模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180215805A1 (en) * 2015-01-29 2018-08-02 Nexvet Australia Pty Ltd Therapeutic and diagnostic agents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102139095A (zh) * 2010-01-29 2011-08-03 上海泽生科技开发有限公司 神经调节蛋白用于预防、治疗或延迟心脏缺血再灌注损伤的方法和组合物
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109559781A (zh) * 2018-10-24 2019-04-02 成都信息工程大学 一种预测dna-蛋白质结合的双向lstm和cnn模型

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Combining evidence using p-values: application to sequence homology searches";Bailey T L等;《Bioinformatics》;19981230;全文 *
"On the prediction of DNA-binding proteins only from primary sequences: A deep learning approach";Yu-Hui Qu等;《PLOS ONE》;20171229;第1-16页 *
申克孢子丝菌4Hppd基因结构功能的生物信息学分析;吴晓雁等;《皮肤性病诊疗学杂志》;20200428(第02期);全文 *

Also Published As

Publication number Publication date
CN111696624A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN111696624B (zh) 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN107563150B (zh) 蛋白质结合位点的预测方法、装置、设备及存储介质
Emms et al. OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy
Hu et al. Predicting protein-DNA binding residues by weightedly combining sequence-based features and boosting multiple SVMs
CN109671469B (zh) 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN113593631A (zh) 一种预测蛋白质-多肽结合位点的方法及系统
Hu et al. An improved deep learning method for predicting DNA-binding proteins based on contextual features in amino acid sequences
Keleş et al. Regulatory motif finding by logic regression
KR101809599B1 (ko) 약물과 단백질 간 관계 분석 방법 및 장치
CN108009405A (zh) 一种基于机器学习技术预测细菌外膜蛋白质的方法
CN109559781A (zh) 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN110379464B (zh) 一种细菌中dna转录终止子的预测方法
Li et al. 3D representations of amino acids—applications to protein sequence comparison and classification
Chaudhari et al. DeepRMethylSite: a deep learning based approach for prediction of arginine methylation sites in proteins
CN108710784A (zh) 一种基因转录变异几率及变异方向的算法
Zhang et al. DiscMLA: an efficient discriminative motif learning algorithm over high-throughput datasets
CN112927753A (zh) 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法
US20020072887A1 (en) Interaction fingerprint annotations from protein structure models
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN109215737A (zh) 蛋白质特征提取、功能模型生成、功能预测的方法及装置
More et al. matK-QR classifier: a patterns based approach for plant species identification
Raza et al. iPro-TCN: prediction of DNA promoters recognition and their strength using temporal convolutional network
Wang et al. Prediction of RNA-protein interactions using conjoint triad feature and chaos game representation
Wang et al. Prediction of DNA-binding residues from sequence features
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220712