CN109559781A - 一种预测dna-蛋白质结合的双向lstm和cnn模型 - Google Patents

一种预测dna-蛋白质结合的双向lstm和cnn模型 Download PDF

Info

Publication number
CN109559781A
CN109559781A CN201811244350.7A CN201811244350A CN109559781A CN 109559781 A CN109559781 A CN 109559781A CN 201811244350 A CN201811244350 A CN 201811244350A CN 109559781 A CN109559781 A CN 109559781A
Authority
CN
China
Prior art keywords
layer
dna
protein
blstm
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811244350.7A
Other languages
English (en)
Inventor
张永清
曾圆麟
卢荣钊
何嘉
周激流
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN201811244350.7A priority Critical patent/CN109559781A/zh
Publication of CN109559781A publication Critical patent/CN109559781A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种预测DNA‑蛋白质结合的双向LSTM和CNN模型,其中包括输入层、BLSTM层、卷积层、最大池化层、全连接层和输出层。输入层使用独热编码将每个输入序列表示为4行二进制矩阵;在BLSTM层中,前一层中的每个LSTM模型将从输入序列中接收DNA上感兴趣的信息,对从过去历史信息传递到隐藏状态的贡献进行编码解释;然后将其传播到下一个BLSTM模块中;卷积层中每个卷积核扫描输入的矩阵用于模体发现,不同强度的信息关联潜在的序列模式;最大池化层用于最大化每个卷积核的输出信号使其成一个完整的序列;输出层执行非线性转换以确定DNA‑蛋白质结合的特征信息。

Description

一种预测DNA-蛋白质结合的双向LSTM和CNN模型
技术领域
本发明涉及深度学习和生物信息技术领域,尤其涉及一种预测DNA-蛋白质结合的双向LSTM和CNN模型。
背景技术
准确地建立转录因子(Transcription factors,TF)序列的特定模型是理解基因组功能和进化的基本问题。特别是,转录因子的结合特性对下游基因表达将产生决定性的作用。随着高通量测序技术的发展,ENCODE计划提供了98个细胞全基因组范围的187个TF的结合特异性。根据转录因子结合位点,可以定义一个序列的二分类问题,即根据TF是否结合,将其分别划分为正样本和负样本。通过建立序列的二分类模型,可以预测新的样本的绑定结合位点。
近年来,与其他机器学习方法相比,深度学习技术具有更高的鉴别能力,并已广泛应用于生物信息学,如蛋白质结构预测,基因表达调控,蛋白质分类。卷积神经网络(CNN)是一个众所周知的深度学习框架。CNN的组件包括卷积,池化和全连接层。对于分类器或回归任务,通常使用softmax回归,因为它可以产生与输出相对应的良好形成的概率分布。卷积神经网络(CNN)成功预测了TF结合位点。通过编码训练的空间不变性,CNN可以很好地推广。图形处理单元(GPU)上的快速卷积允许CNN在大规模数据集上进行训练。
然而,现有技术方案存在以下不足:神经网络的框架将极大地影响模型的系统性能,同时在捕获探针序列的位置和动态方面表现更差,以便从DNA序列预测TF结合位点。因此,现有计算方法在预测DNA-蛋白质结合的准确性方面还有待提升。
发明内容
针对现有技术之不足,研究的重点是发现转录因子结合位点(TFBS),TFBS的任务可视为二元序列分类问题。该问题可以公式化为:作为输入,通过表示训练集,其中X(i)是矩阵,尺寸为4×N,其中N是DNA序列的长度(在实验中是101个碱基对)。序列中的每个碱基对表示为四个独热编码之一[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]。该矩阵称为位置频率矩阵(PFM),其具有对应于遗传字母表的每个通道的四行,即{A,T,C,G}。标签Y(i)可以是标量或载体,取决于所研究的转录因子结合位点的数量。尽管如此,维度的数量等于分类任务,并且Y(i)的每个元素都是标准空间{0,1}中的二进制标签。目标是准确地预测训练数据中的标记,即准确地预测每个转录因子是否与给定序列结合。
本发明提出将BLSTM网络和CNN网络结合起来形成BLSTM+CNN模型,又称为DeepSite,如图1所示。该框架可以通过BLSTM层有效地表征基因序列中可能高度复杂的顺序,并生成通过CNN和最大池层找到可能的序列模式。利用这种神经网络,可以通过从BLSTM和CNN的每个中间隐藏值中获取信息来捕获基因序列的长短时依赖性信息。该模型包括输入层、BLSTM层、卷积层、最大池化层、全连接层和输出层,其结构如下:
第一层为输入层,其使用独热编码将每个输入序列表示为4行二进制矩阵,每个序列的长度为101个碱基对;
第二层为BLSTM层,其中前一层中的每个LSTM模型将从输入序列中接收DNA上感兴趣的信息,对从过去历史信息传递到隐藏状态的贡献进行编码解释;然后,该解释信息将传播到下一个BLSTM模块中,包括其前一个和下一个LSTM块;一直到最后一个核苷酸,LSTM模块将做出最终确定;
第三层为卷积层,其由不同卷积核组成,其中具有线性整流函数ReLU作为激活函数,每个卷积核扫描输入的矩阵用于模体发现,不同强度的信息关联潜在的序列模式;
第四层为最大池化层,通过减小输入的尺寸来提高性能,减小过拟合,为后续层保留重要信息。
第五层为全连接层,用于最大化每个卷积核的输出信号使其成一个完整的序列,使用ReLU作为激活单元。
最后一层为输出层,其使用sigmoid激活执行非线性转换,并生成0到1之间的值,以表示每个探针的DNA-蛋白质结合的概率,从而确定DNA-蛋白质结合的特征信息。优选地,通过BLSTM层有效地表征基因序列中的顺序,并生成通过CNN和最大池层概括序列模式的过滤器。
根据一个优选实施方式,BLSTM+CNN模型对应的深度学习网络的训练步骤具体包括:
步骤一,从ENCODE等公共数据库中获取DNA-蛋白质结合的实验数据;
步骤二,利用预先设置有初始参数的深度学习网络对所述DNA-蛋白质结合样本进行识别分类;根据所述深度学习网络输出结果与所述DNA-蛋白质结合的特征信息之间的差异逐层反传至所述深度学习网络,训练所述深度学习网络的参数;
步骤三,所述利用预先设置有初始参数的深度学习网络对所述DNA-蛋白质结合进行识别,其具体为:利用预先设置有初始参数的BLSTM算法,学习基因序列之间的前后依赖关系信息,通过CNN网络的卷积层,获取DNA-蛋白质结合位点的序列特征信息,最大池化层提取序列特征中的重要取得更好的预测效果,再通过全连接层的操作,得到所述DNA-蛋白质结合识别的概率;根据所述深度学习网络输出结果与DNA-蛋白质结合信息之间的差异逐层反传至所述深度学习网络,训练深度学习网络的参数。
本发明具有以下有益效果:
本发明提供了一种用于预测DNA-蛋白质结合的BLSTM+CNN模型,又称为DeepSite,其可以通过BLSTM层有效地表征基因序列中可能高度复杂的顺序,并通过CNN和最大池层找到可能的序列模式。通过使用BLSTM算法,可以很好地学习基因序列之间的依赖关系信息。通过将BLSTM网络和CNN网络结合,可以很好地获取TF结合信息,取得更好的预测效果。本发明利用深度学习算法代替传统的机器学习方法,达到识别DNA-蛋白质结合有更高准确性的目的。
附图说明
图1是本发明的DeepSite模型的流程图;
图2示出了不同细胞数下BLSTM和DeepSite的AUC性能变化曲线;
图3示出了CNN和DeepSite的AUC与卷积核数的性能变化曲线;
图4示出了CNN、BLSTM和DeepSite在同一数据集上的ROC曲线;
图5示出了CNN和DeepSite在不同数据量下AUC的性能变化曲线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明使用双向LSTM结构来处理DNA序列中的顺序和逆序依赖信息。网络结构和提出的算法基于Keras库实现。所有这些都在图形处理单元(GPU)上进行,以加快训练时间。
如图1所示,BLSTM网络和CNN网络结合起来形成BLSTM+CNN模型,即DeepSite,该框架可以通过BLSTM层有效地表征基因序列中可能高度复杂的顺序,并生成通过CNN和最大池层概括序列模式的过滤器。利用这种神经网络,可以通过从BLSTM和CNN的每个中间隐藏值中获取信息来捕获基因序列的长短依赖性信息。
第一层为输入层,其使用独热编码将每个输入序列表示为4行二进制矩阵,每个序列的长度为101个碱基对;
第二层为BLSTM层,其中前一层中的每个LSTM模型将从输入序列中接收DNA上感兴趣的信息,对从过去历史信息传递到隐藏状态的贡献进行编码解释;然后,该解释信息将传播到下一个BLSTM模块中,包括其前一个和下一个LSTM块;一直到最后一个核苷酸,LSTM模块将做出最终确定;
第三层为卷积层,其由不同卷积核组成,其中具有线性整流函数ReLU作为激活函数,每个卷积核扫描输入的矩阵用于模体发现,不同强度的信息关联潜在的序列模式;
第四层为最大池化层,通过减小输入的尺寸来提高性能,减小过拟合,为后续层保留重要信息。
第五层为全连接层,用于最大化每个卷积核的输出信号使其成一个完整的序列,使用ReLU作为激活单元。
最后一层为输出层,其使用sigmoid激活执行非线性转换,并生成0到1之间的值,以表示每个探针的DNA-蛋白质结合的概率。DeepSite通过使用标准反向传播算法和小批量梯度下降与Adagrad变体进行训练。Dropout和早期停止技术用于正则化和模型选择。
下面通过实验对本发明与不同方法在不同数据集上进行性能比较,在实验中,整个训练数据被分批处理。每批数量的大小由参数批量大小(batch size)决定。批量大小指定为64。参数权重和偏置的初始化值设置为Keras中的默认值。每个模型都通过50次迭代的训练进行优化。所有实验均由Python库Keras进行,在具有24Xeon处理器和256GB内存以及1个Nvidia Tesla K40C GPU的机器上运行。
从ENCODE下载690个ChIP-seq实验数据,阳性组由每个ChIP-seq峰的中心101碱基对区域组成,阴性组由具有匹配二核苷酸组成的shuffled阳性序列组成。进一步地,基于690ChIP-seq实验数据生成数据集。将所有训练数据组合成整个数据集,训练集中的DNA序列数为2,725,808,测试组中的DNA序列数为255,700。为了减少DeepSite的运行时间,首先使用10%的训练集和测试集来评估性能。最后,使用所有数据集都用于评估DeepSite的性能。
实验中使用了五种评估测量,即Sensitivity(Sen),Specificity(Spe),Accuracy(Acc),Precision(Pre)和Mathew's Correlation Coefient(MCC)用于评估预测能力。它们通过以下等式计算:
其中TP是真阳性数,TN是真阴性数,FP是假阳性数,FN是假阴性数,P是阳性数,N是阴性数。然而,这些五个测量值取决于阈值。因此,选择用于报告这些评估测量的方法对于在不同预测器之间进行事务比较是至关重要的。在该研究中,接收器操作特性(ROC)曲线下面积(AUC)是阈值无关的并且与总体预测性能成正比增加,用于评估预测性能。
通过逐渐将LSTM单元数量取值从32,64,128变为256来评估训练数据集上的Sen,Spe,Acc,Pre,MCC和AUC值。图2绘制了不同细胞数下AUC的性能变化曲线。根据图2可知,AUC的值随着细胞数量的增加而增加,并且本发明所提出的BLSTM+CNN模型的性能比BLSTM更好。
表1通过指定不同的单元格数值显示Sen,Spe,Acc,Pre和MCC的值。实验结果表明,本发明的算法在32,64,128和256个细胞数上分别达到MCC的0.686,0.691,0.706和0.713,优于BLSTM,MCC为32的差距为0.089,0.044,0.039,0.015,64,128和256个单元格。这表明BLSTM和CNN的结合在少数细胞数量中运行良好,这将有助于缩短训练时间。
表1.DeepSite和BLSTM在不同细胞数中的性能比较
接下来,讨论如何在CNN中选择卷积内核的数量。通过逐渐将卷积核的数量从32,64改为128来评估训练数据集上的Sen,Spe,Acc,Pre,MCC和AUC的值。
图3绘制了不同卷积核数下AUC的变化曲线。根据图3可知,AUC的值随着卷积核的数量而增加,并且DeepSite模型的性能总是优于CNN。表2显示了DeepSite与CNN在不同数量的卷积核数量下的Sen,Spe,Acc,Pre和MCC的测量结果。结果表明,本发明的方法分别在32,64和128个卷积核上达到了0.699,0.700和0.706,在32,64和128个卷积核上,MCC的效果优于CNN,其中MCC为0.119,0.081和0.073。它表明BLSTM和CNN的组合在不同数量的卷积核中更稳定,甚至在少量卷积核中也有更好的结果。
表2.DeepSite和CNN在不同卷积数量上的性能比较
图4显示了同一数据集上三种深度学习方法的ROC曲线。通过图1,我们发现BLSTM+CNN的AUC为0.932,与BLSTM和CNN相比,分别表现出约0.005和0.035的改善。BLSTM+CNN,即DeepSite获得了有效预测DNA-蛋白结合的最佳ROC曲线。
为了进一步评估DeepSite的性能,我们使用DeepSite和CNN对数据大小分别为10%,30%,50%和100%的四个不同数据集进行了实验。图5显示了不同数据集基数下AUC的性能变化曲线。根据图5可知,AUC的值随着数据的基数而增加,并且在大多数情况下,DeepSite的性能优于CNN。表3示出了在不同数据量下的Sen,Spe,Acc,Pre和MCC的值。
表3.DeepSite和CNN在不同数据集规模上的性能比较
结果表明,BLSTM+CNN在MCC的10%,30%,50%和100%的数据大小分别达到0.713,0.765,0.770和0.783,表现优于CNN,0.008,0.116,0.131,0.138对数据大小的10%,30%,50%和100%。其说明了:100%的数据集大小具有更多的训练数据,并且DeepSite可以充分利用大量的训练实例来提高其性能。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (2)

1.一种预测DNA-蛋白质结合的双向LSTM和CNN模型,其特征在于,其包括输入层、BLSTM层、卷积层、最大池化层、全连接层和输出层,其中,
第一层为输入层,其使用独热编码将每个输入序列表示为4行二进制矩阵,每个序列的长度为101个碱基对;
第二层为BLSTM层,其中前一层中的每个LSTM模型将从输入序列中接收DNA上感兴趣的信息,对从过去历史信息传递到隐藏状态的贡献进行编码解释;然后,该解释信息将传播到下一个BLSTM模块中,包括其前一个和下一个LSTM块;一直到最后一个核苷酸,LSTM模块将做出最终确定;
第三层为卷积层,其由不同卷积核组成,其中具有线性整流函数ReLU作为激活函数,每个卷积核扫描输入的矩阵用于模体发现,不同强度的信息关联潜在的序列模式;
第四层为最大池化层,通过减小输入的尺寸来提高性能,减小过拟合,为后续层保留重要信息。
第五层为全连接层,用于最大化每个卷积核的输出信号使其成一个完整的序列,使用ReLU作为激活单元。
最后一层为输出层,其使用sigmoid激活执行非线性转换,并生成0到1之间的值,以表示每个探针的DNA-蛋白质结合的概率。
2.如权利要求1所述的模型,其特征在于,所述模型对应的深度学习网络的训练步骤具体包括:
步骤一,从ENCODE等公共数据库中获取DNA-蛋白质结合的实验数据;
步骤二,利用预先设置有初始参数的深度学习网络对所述DNA-蛋白质结合样本进行识别分类;根据所述深度学习网络输出结果与所述DNA-蛋白质结合的特征信息之间的差异逐层反传至所述深度学习网络,训练所述深度学习网络的参数;
步骤三,所述利用预先设置有初始参数的深度学习网络对所述DNA-蛋白质结合进行识别,其具体为:利用预先设置有初始参数的BLSTM算法,学习基因序列之间的前后依赖关系信息,通过CNN网络的卷积层,获取DNA-蛋白质结合位点的序列特征信息,最大池化层提取序列特征中的重要取得更好的预测效果,再通过全连接层的操作,得到所述DNA-蛋白质结合识别的概率;根据所述深度学习网络输出结果与DNA-蛋白质结合信息之间的差异逐层反传至所述深度学习网络,训练深度学习网络的参数。
CN201811244350.7A 2018-10-24 2018-10-24 一种预测dna-蛋白质结合的双向lstm和cnn模型 Pending CN109559781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811244350.7A CN109559781A (zh) 2018-10-24 2018-10-24 一种预测dna-蛋白质结合的双向lstm和cnn模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811244350.7A CN109559781A (zh) 2018-10-24 2018-10-24 一种预测dna-蛋白质结合的双向lstm和cnn模型

Publications (1)

Publication Number Publication Date
CN109559781A true CN109559781A (zh) 2019-04-02

Family

ID=65865197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811244350.7A Pending CN109559781A (zh) 2018-10-24 2018-10-24 一种预测dna-蛋白质结合的双向lstm和cnn模型

Country Status (1)

Country Link
CN (1) CN109559781A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN111933217A (zh) * 2020-06-17 2020-11-13 西安电子科技大学 一种基于深度学习的dna模体长度预测方法及预测系统
CN112289370A (zh) * 2020-12-28 2021-01-29 武汉金开瑞生物工程有限公司 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置
CN113011102A (zh) * 2021-04-01 2021-06-22 河北工业大学 基于多元时间序列的Attention-LSTM的青霉素发酵过程故障预测方法
CN113160885A (zh) * 2021-03-11 2021-07-23 同济大学 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599869A (zh) * 2016-12-22 2017-04-26 安徽大学 一种基于多任务卷积神经网络的车辆属性识别方法
CN108062753A (zh) * 2017-12-29 2018-05-22 重庆理工大学 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
CN108595913A (zh) * 2018-05-11 2018-09-28 武汉理工大学 鉴别mRNA和lncRNA的有监督学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599869A (zh) * 2016-12-22 2017-04-26 安徽大学 一种基于多任务卷积神经网络的车辆属性识别方法
CN108062753A (zh) * 2017-12-29 2018-05-22 重庆理工大学 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
CN108595913A (zh) * 2018-05-11 2018-09-28 武汉理工大学 鉴别mRNA和lncRNA的有监督学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIEL QUANG1, AND XIAOHUI XIE: "混合卷积和递归深度神经网络,用于量化DNA序列的功能", 《NUCLEIC ACIDS RESEARCH》 *
PIERRE BALDI: "生物医学数据科学中的深度学习", 《生物医学数据科学年度回顾》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN111696624B (zh) * 2020-06-08 2022-07-12 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN111933217A (zh) * 2020-06-17 2020-11-13 西安电子科技大学 一种基于深度学习的dna模体长度预测方法及预测系统
CN111933217B (zh) * 2020-06-17 2024-04-05 西安电子科技大学 一种基于深度学习的dna模体长度预测方法及预测系统
CN112289370A (zh) * 2020-12-28 2021-01-29 武汉金开瑞生物工程有限公司 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置
CN112289370B (zh) * 2020-12-28 2021-03-23 武汉金开瑞生物工程有限公司 一种蛋白质结构预测方法及装置
CN113160885A (zh) * 2021-03-11 2021-07-23 同济大学 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统
CN113011102A (zh) * 2021-04-01 2021-06-22 河北工业大学 基于多元时间序列的Attention-LSTM的青霉素发酵过程故障预测方法
CN113011102B (zh) * 2021-04-01 2022-05-24 河北工业大学 基于多元时间序列的Attention-LSTM的青霉素发酵过程故障预测方法

Similar Documents

Publication Publication Date Title
CN109559781A (zh) 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
CN104966106B (zh) 一种基于支持向量机的生物年龄分步预测方法
Hu et al. pRNN: A recurrent neural network based approach for customer churn prediction in telecommunication sector
Wang et al. EMDLP: Ensemble multiscale deep learning model for RNA methylation site prediction
Pang et al. Improving deep forest by screening
Ozkok et al. Convolutional neural network analysis of recurrence plots for high resolution melting classification
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN108427865A (zh) 一种预测LncRNA和环境因素关联关系的方法
Wang et al. Fine-grained grape leaf diseases recognition method based on improved lightweight attention network
CN103164631A (zh) 一种智能协同表达基因分析仪
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
Huang et al. Harnessing deep learning for population genetic inference
Sun et al. Two stages biclustering with three populations
Chen et al. ncDENSE: a novel computational method based on a deep learning framework for non-coding RNAs family prediction
Pan et al. Multi-head attention mechanism learning for cancer new subtypes and treatment based on cancer multi-omics data
CN116758993A (zh) 一种集成多组学特征的dna甲基化预测方法
CN104462817B (zh) 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
Wang et al. Computational identification of ubiquitination sites in Arabidopsis thaliana using convolutional neural networks
Gong et al. Interpretable single-cell transcription factor prediction based on deep learning with attention mechanism
Quan et al. Quantifying intensities of transcription factor-DNA binding by learning from an ensemble of protein binding microarrays
CN114678083A (zh) 一种化学品遗传毒性预测模型的训练方法及预测方法
CN109444360B (zh) 基于细胞神经网络和电子鼻特征提取的果汁贮藏期检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190402

RJ01 Rejection of invention patent application after publication