CN113936738A - 一种基于深度卷积神经网络的rna-蛋白质结合位点预测方法 - Google Patents

一种基于深度卷积神经网络的rna-蛋白质结合位点预测方法 Download PDF

Info

Publication number
CN113936738A
CN113936738A CN202111519617.0A CN202111519617A CN113936738A CN 113936738 A CN113936738 A CN 113936738A CN 202111519617 A CN202111519617 A CN 202111519617A CN 113936738 A CN113936738 A CN 113936738A
Authority
CN
China
Prior art keywords
convolutional neural
neural network
rna
length
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111519617.0A
Other languages
English (en)
Other versions
CN113936738B (zh
Inventor
潘正森
周树森
邹海林
柳婵娟
臧睦君
刘通
王庆军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludong University
Original Assignee
Ludong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludong University filed Critical Ludong University
Priority to CN202111519617.0A priority Critical patent/CN113936738B/zh
Publication of CN113936738A publication Critical patent/CN113936738A/zh
Application granted granted Critical
Publication of CN113936738B publication Critical patent/CN113936738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息学领域,涉及一种基于深度卷积神经网络的RNA‑蛋白质结合位点预测方法,其中包括卷积神经网络和RNA序列数据处理等技术,旨在提高卷积神经网络模型对RNA‑蛋白质结合位点的预测性能。首先,确定不同窗口长度,使用不同长度的窗口分别处理RNA序列;其次,把处理好的RNA序列通过单热编码方式编码成矩阵,针对多个单热编码矩阵训练多个卷积神经网络模型,并保存这些训练好的模型用于预测;最后,将需要预测的RNA序列经过处理后得到多个单热编码矩阵,分别输入对应的卷积神经网络模型得到多个预测概率,取多个模型预测概率的平均值作为预测结果。

Description

一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法
技术领域
本发明属于生物信息学领域,涉及一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法,其中包括卷积神经网络和RNA序列数据处理等技术。
背景技术
RNA结合蛋白 (以下简称RBPs) 在许多生物过程中发挥关键作用,例如:基因调控、mRNA定位等。一些RBPs的突变可能会导致人类疾病。例如:RBPs FUS和TDP-43的突变可导致肌萎缩性侧索硬化症。因此,解码RBPs可以对许多生物学机制有更深入的见解。
通过实验的方法检测RBPs耗时且昂贵。使用从现有注释知识中学习到的模式来计算预测RBPs是一种快速的方法。许多的计算方法已经被提出,神经网络和支持向量机等相关方法已经被成功的应用于预测RBPs。
本发明最重要的创新点是提出了一种新的提取RNA序列结合信息的方法,即通过不同长度的窗口分别处理RNA序列,使得模型可以提取更丰富的序列结合信息,提高模型预测RNA-蛋白质结合位点的性能。
发明内容
一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法,包括预处理RNA序列、训练卷积神经网络和测试卷积神经网络三个过程,其具体步骤如下:
步骤1、为了从RNA序列中提取更多的结合信息,需要使用不同长度的窗口分别处理RNA序列,因此,需要首先确定不同的窗口长度;
步骤2、使用步骤1中确定的不同长度的窗口分别处理RNA序列;对于不等长的RNA序列,当窗口长度大于RNA序列时,使用补足碱基N把RNA序列填充到窗口长度;当窗口长度小于RNA序列时,根据窗口长度把RNA序列分割成多个有部分重叠的等长子序列,子序列不足的RNA序列使用全是补足碱基N的子序列填充;
步骤3、把步骤2中使用不同长度的窗口分别处理好的RNA序列数据通过单热编码的方式编码成多个矩阵;
步骤4、把步骤3中生成的多个单热编码矩阵作为多个卷积神经网络的输入,训练多个卷积神经网络模型;
步骤5、保存训练好的多个卷积神经网络模型;
步骤6、使用步骤5中保存好的模型来预测输入的RNA序列数据。
1. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤1的实现过程如下:
确定处理RNA序列所使用的不同窗口长度:将501个核苷酸的长度作为初始窗口长度MaxL;其余窗口长度分别以MaxL为初始长度递减核苷酸个数为X的整数倍;考虑到模型的预测性能以及模型的训练和测试时间,X的值确定为50,窗口的最小长度MinL为101个核苷酸;窗口的个数P根据公式 (1) 确定:
Figure 417493DEST_PATH_IMAGE001
不同窗口的长度W根据公式 (2) 确定:
Figure 668477DEST_PATH_IMAGE002
其中,i是窗口长度编号,最终产生P个不同长度的窗口。
2. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤2的实现过程如下:
使用步骤1中产生的P个不同长度的窗口分别处理RNA序列。根据L 1 计算卷积神经网络的输入频道数量Q 1 。根据L 2 计算卷积神经网络的输入频道数量Q 2 。例如:当窗口长度大于L 1 时,根据公式 (3) 计算Q 1 = 1,即卷积神经网络的输入频道数量是1,使用补足碱基N把L 1 填充到窗口长度作为一个频道。此时,窗口长度必定大于L 2 ,根据公式 (3) 计算Q 2 = 1,使用补足碱基N把L 2 填充到窗口长度作为一个频道。当窗口长度小于L 1 时,把L 1 根据窗口长度分割成Q 1 个有部分重叠的等长子序列,根据公式 (3) 计算Q 1 L 2 也根据窗口长度分割成Q 2 个有部分重叠的等长子序列,根据公式 (3) 计算Q 2 ,如果Q 2 < Q 1 ,则使用Q 1 - Q 2 个等于窗口长度的全是补足碱基N的子序列作为填充,此时卷积神经网络的输入频道数量等于Q 1
Figure 89094DEST_PATH_IMAGE003
其中,L是RNA序列长度,W是窗口大小,S是窗口之间的重叠长度。当剩余RNA碱基数量大于10时,从后向前截窗口大小的长度作为一条子序列。
3. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤3的实现过程如下:
把步骤2中根据P个窗口长度处理好的P组RNA序列根据公式 (4) 处理得到P个单 热编码矩阵,假设n个核苷酸长度的RNA序列
Figure 623980DEST_PATH_IMAGE004
,则RNA序列S的单热编码矩阵M 表示为:
Figure 783435DEST_PATH_IMAGE005
其中,i是核苷酸的索引,j是单热编码矩阵中对应的A, C, G, U的索引,补足碱基N在单热编码矩阵中使用 [0.25,0.25,0.25,0.25] 表示。
4. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤4的实现过程如下:
卷积神经网络模型使用步骤3中处理好的P个单热编码矩阵作为输入,每个矩阵都训练一个卷积神经网络模型,每个卷积神经网络模型包括两个隐藏层、一个全连接层和一个输出层;两个隐藏层参数的设置除了卷积核大小不同,其余参数都相同。两个隐藏层的卷积核大小分别是 (4,10)、(1,10),都进行归一化操作和使用ReLU激活函数,池化层大小都是 (1,3),第二个隐藏层的输出以0.25的概率进行Dropout操作;全连接层有200个节点,使用ReLU激活函数,并且全连接层的输出以0.25的概率进行Dropout操作;输出层有2个节点,使用Sigmoid激活函数。
5. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤5的实现过程如下:
保存步骤4中训练好的P个卷积神经网络模型,用于预测输入的RNA序列数据。
6. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤6的实现过程如下:
把输入的RNA数据重复步骤1-3得到P个单热编码矩阵,把单热编码矩阵输入到步骤5保存的P个模型中,每个模型得到一个预测结果,输入的RNA序列的最终预测结果取P个模型预测结果的平均值。
附图说明
图1为X = 50时不同的窗口长度。
图2、图3分别是窗口长度大于L 1 和窗口长度小于L 1 时,对L 2 的处理操作。其中图3中的Q 1 Q 2 由公式 (3) 确定。
图4、图5分别是窗口长度大于L 1 和窗口长度小于L 1 时,把处理完的L 2 按照公式 (4)转变成单热编码矩阵。其中图5中的Q 1 Q 2 由公式 (3) 确定。
图6是两层卷积神经网络流程图。
图7、图8分别训练多个卷积神经网络模型和测试训练好的模型的流程图。
具体实施方式
以下结合附图和实例对本发明进行详细说明。
本发明的目的是提出一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法,包括预处理RNA序列、训练卷积神经网络和测试卷积神经网络三个过程,其具体过程包括如下步骤:
步骤1、确定处理RNA序列所使用的不同的窗口长度:
X是不同窗口之间的长度差;考虑到模型预测性能以及模型训练和测试时间,X的值确定为50;如图1所示,其中窗口1是初始窗口,具有501个核苷酸长度;由于X = 50,因此窗口2的长度的是451个核苷酸;以此类推,每个窗口依次从初始窗口递减50个核苷酸,直至达到最小窗口长度101个核苷酸。根据公式 (1) 确定,当X = 50时总共产生P ( P = 9 )个不同长度的窗口,窗口的长度分别是501,451,401,351,301,251,201,151和101。
步骤2、使用步骤1中产生的P ( P = 9 ) 个不同长度的窗口分别处理L 2
当窗口长度大于L 1 时,L 2 的处理过程如图2所示。当窗口长度W = 501,根据公式(3) Q 1 = 1,Q 2 = 1,因此需要把L 2 填充到501;当窗口长度W = 451,根据公式 (3) Q 1 = 1,Q 2 = 1,因此需要把L 2 填充到451;当窗口长度W = 401,根据公式 (3) Q 1 = 1,Q 2 = 1,因此需要把L 2 填充到401;当窗口长度W = 351,根据公式 (3) Q 1 = 2,Q 2 = 1,因此需要把L 2 填充到351,再填充1个长度为351的全是补足碱基N的子序列;
当窗口长度小于L 1 时,L 2 的处理过程如图3所示。当窗口长度W = 101,根据公式(3) Q 1 = 7,Q 2 = 6,再填充1个长度为101的全是补足碱基N的子序列;当窗口长度W = 151,根据公式 (3) Q 1 = 4,Q 2 = 3,再填充1个长度为151的全是补足碱基N的子序列;当窗口长度W = 201,根据公式 (3) Q 1 = 3,Q 2 = 2,再填充1个长度为201的全是补足碱基N的子序列;当窗口长度W = 251,根据公式 (3) Q 1 = 2,Q 2 = 2,无需填充子序列;当窗口长度W =301,根据公式 (3) Q 1 = 2,Q 2 = 2,无需填充子序列。
步骤3、把步骤2中使用P ( P = 9 ) 个窗口分别处理好的P ( P = 9 ) 组RNA序列根据公式 (4) 处理得到P ( P = 9 ) 个单热编码矩阵:
假设RNA序列为:AUCCGGAAU,那么这条RNA的单热编码矩阵如下:
Figure 770983DEST_PATH_IMAGE007
如图4所示,当窗口大小W = 501 时,L 2 使用补足碱基N在RNA序列后面填充到501,然后通过单热编码的方式编码成矩阵;窗口长度是451,401,351的情况也是如此。如图5所示,当窗口大小W = 101,根据L 1 计算出Q 1 ( Q 1 = 7 ),把L 2 分割成Q 2 ( Q 2 = 6 ) 个具有50个核苷酸重叠的子序列,然后再填充一个长度为101全是补足碱基N的子序列。把Q 1 个子序列通过单热编码的方式编码成矩阵。窗口长度是151,201,251,301的情况也是如此,但是子序列数量Q 1 Q 2 和填充全是补足碱基N的子序列数量 ( Q 1 - Q 2 ) 有所不同。
步骤4、使用步骤3中产生的P ( P = 9 ) 个单热编码矩阵,分别训练P ( P = 9 )个卷积神经网络;
每个卷积神经网络的参数都相同,卷积神经网络的架构如图6所示。卷积操作包括:输入矩阵与卷积核对应位置分别点乘再求和、卷积核移动;重复这两个步骤到遍历完输入矩阵。第一层包括:(4,10) 大小的卷积核进行卷积操作、归一化操作、使用ReLU激活函数和 (1,3) 大小的最大池化操作;第二层包括:(1,10) 大小的卷积核进行卷积操作、归一化操作、使用ReLU激活函数和 (1,3) 大小的最大池化操作;第二层的输出以0.25的概率随机丢弃节点 (Dropout操作) ;与全连接层200个节点连接,全连接层的输出以0.25的概率随机丢弃节点 (Dropout操作) 和使用ReLU激活函数;与输出层的2个节点连接,使用Sigmoid激活函数得到输出概率;
训练的卷积神经网络架构如图7所示:一条RNA序列经过步骤2、步骤3处理得到P ( P = 9 ) 个单热编码矩阵;针对每个单热编码矩阵都训练一个卷积神经网络,卷积神经网络的架构如图6所述。
步骤5、保存步骤4中训练好的卷积神经网络模型;
步骤6、如图8所示:使用步骤5中保存好的模型,把需要预测的RNA序列数据按照步骤1 - 3处理成P ( P = 9 ) 个单热编码矩阵,分别使用步骤5中保存好的P ( P = 9 ) 个模型处理这P ( P = 9 ) 个单热编码矩阵,每个卷积神经网络使用对应的单热编码矩阵正向传播一次输出P ( P = 9 ) 个概率值。
步骤6、需要预测的RNA序列数据的最终预测概率结果取步骤5中P ( P = 9 ) 个概率的平均值,即可实现高效、精准的预测。在来自CLIP-seq的大型数据集RBP-24上测试了本发明提出的模型的预测结果并与前人提出的模型进行对比 (AUC值越高代表模型性能越好)。GraphProt、deepnet-rbp、iDeepE和本发明提出的模型在24个数据集上的平均AUC分别是0.887、0.902、0.931和0.950。实验证明本发明提出的模型取得了最好的预测结果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法,包括预处理RNA序列、训练卷积神经网络和测试卷积神经网络三个过程,其具体步骤如下:
步骤1、为了从RNA序列中提取更多的结合信息,需要使用不同长度的窗口分别处理RNA序列,因此,需要首先确定不同的窗口长度;
步骤2、使用不同长度的窗口分别处理RNA序列;对于不等长的RNA序列,当窗口长度大于RNA序列时,使用补足碱基N把RNA序列填充到窗口长度;当窗口长度小于RNA序列时,根据窗口长度把RNA序列分割成多个有部分重叠的等长子序列,子序列不足的RNA序列使用全是补足碱基N的子序列填充;
步骤3、把步骤2中使用不同长度的窗口分别处理好的RNA序列数据通过单热编码的方式编码成多个矩阵;
步骤4、把步骤3中生成的多个单热编码矩阵作为卷积神经网络的输入,训练多个卷积神经网络模型;
步骤5、保存训练好的多个卷积神经网络模型;
步骤6、使用步骤5中保存好的模型来预测输入的RNA序列数据。
2.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤1的实现过程如下:
确定处理RNA序列所使用的不同窗口长度:将501个核苷酸的长度作为初始窗口长度MaxL;其余窗口长度分别以MaxL为初始长度递减核苷酸个数为X的整数倍;考虑到模型的预测性能以及模型训练的和测试时间,X的值确定为50,窗口的最小长度MinL为101个核苷酸;窗口的个数P根据公式 (1) 确定:
Figure 40375DEST_PATH_IMAGE001
不同窗口的长度W根据公式 (2) 确定:
Figure 359492DEST_PATH_IMAGE002
其中,i是窗口长度编号,最终产生P个不同长度的窗口。
3.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤2的实现过程如下:
使用步骤1中产生的P个不同长度的窗口分别处理RNA序列;根据L 1 计算卷积神经网络的输入频道数量Q 1 ,根据L 2 计算卷积神经网络的输入频道数量Q 2 ;例如:当窗口长度大于L 1 时,根据公式 (3) 计算Q 1 = 1,即卷积神经网络的输入频道数量是1,使用补足碱基N把L 1 填充到窗口长度作为一个频道;此时,窗口长度必定大于L 2 ,根据公式 (3) 计算Q 2 = 1,使用补足碱基N把L 2 填充到窗口长度作为一个频道;当窗口长度小于L 1 时,把L 1 根据窗口长度分割成Q 1 个有部分重叠的等长子序列,根据下面的公式 (3) 计算Q 1 L 2 也根据窗口长度分割成Q 2 个有部分重叠的等长子序列,根据公式 (3) 计算Q 2 ,如果Q 2 < Q 1 ,则使用Q 1 - Q 2 个等于窗口长度的全是补足碱基N的子序列作为填充,此时卷积神经网络的输入频道数量等于Q 1
Figure 575710DEST_PATH_IMAGE003
其中,L是RNA序列长度,W是窗口大小,S是窗口之间的重叠长度,当剩余RNA碱基数量大于10时,从后向前截窗口大小的长度作为一条子序列。
4.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤3的实现过程如下:
把步骤2中根据P个窗口长度处理好的P组RNA序列根据公式 (4) 处理得到P个单热编 码矩阵,假设n个核苷酸长度的RNA序列
Figure 520532DEST_PATH_IMAGE004
,则RNA序列S的单热编码矩阵M表示 为:
Figure 184601DEST_PATH_IMAGE005
其中,i是核苷酸的索引,j是单热编码矩阵中对应的A,C,G,U的索引,补足碱基N在单热编码矩阵中使用 [0.25,0.25,0.25,0.25] 表示。
5.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤4的实现过程如下:
卷积神经网络模型使用步骤3中处理好的P个单热编码矩阵作为输入,每个矩阵都训练一个卷积神经网络模型,每个卷积神经网络模型包括两个隐藏层、一个全连接层和一个输出层;两个隐藏层参数的设置除了卷积核大小不同,其余参数都相同;两个隐藏层的卷积核大小分别是 (4,10)、(1,10),都进行归一化操作和使用ReLU激活函数,池化层大小都是(1,3),第二个隐藏层的输出以0.25的概率进行Dropout操作;全连接层有200个节点,使用ReLU激活函数,并且全连接层的输出以0.25的概率进行Dropout操作;输出层有2个节点,使用Sigmoid激活函数。
6.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤5的实现过程如下:
保存步骤4中训练好的P个卷积神经网络模型,用于预测输入的RNA序列数据。
7.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法,步骤6的实现过程如下:
把输入的RNA数据重复步骤1-3得到P个单热编码矩阵,把单热编码矩阵输入到步骤5保存的P个模型中,每个模型得到一个预测结果,输入的RNA序列的最终预测结果取P个模型预测结果的平均值。
CN202111519617.0A 2021-12-14 2021-12-14 一种基于卷积神经网络的rna-蛋白质结合位点预测方法 Active CN113936738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111519617.0A CN113936738B (zh) 2021-12-14 2021-12-14 一种基于卷积神经网络的rna-蛋白质结合位点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111519617.0A CN113936738B (zh) 2021-12-14 2021-12-14 一种基于卷积神经网络的rna-蛋白质结合位点预测方法

Publications (2)

Publication Number Publication Date
CN113936738A true CN113936738A (zh) 2022-01-14
CN113936738B CN113936738B (zh) 2022-04-22

Family

ID=79288834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111519617.0A Active CN113936738B (zh) 2021-12-14 2021-12-14 一种基于卷积神经网络的rna-蛋白质结合位点预测方法

Country Status (1)

Country Link
CN (1) CN113936738B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420211A (zh) * 2022-03-28 2022-04-29 鲁东大学 一种基于注意力机制的rna-蛋白质结合位点预测方法
CN114882945A (zh) * 2022-07-11 2022-08-09 鲁东大学 一种基于集成学习的rna-蛋白质结合位点预测方法
CN116153396A (zh) * 2023-04-21 2023-05-23 鲁东大学 一种基于迁移学习的非编码变异预测方法
CN116364195A (zh) * 2023-05-10 2023-06-30 浙大城市学院 一种基于预训练模型的微生物遗传序列表型预测方法
CN116805514A (zh) * 2023-08-25 2023-09-26 鲁东大学 一种基于深度学习的dna序列功能预测方法
CN116844646A (zh) * 2023-09-04 2023-10-03 鲁东大学 一种基于深度对比学习的酶功能预测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6251586B1 (en) * 1995-10-02 2001-06-26 The United States Of America As Represented By The Department Of Health And Human Services Epithelial protein and DNA thereof for use in early cancer detection
CN102609715A (zh) * 2012-01-09 2012-07-25 江西理工大学 一种结合多个兴趣点检测子的物体类识别方法
KR20160057003A (ko) * 2014-11-12 2016-05-23 인하대학교 산학협력단 결합 상대방을 고려하여 rna 서열에서 단백질과 결합하는 부위를 예측하는 방법
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112837747A (zh) * 2021-01-13 2021-05-25 上海交通大学 基于注意力孪生网络的蛋白质结合位点预测方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法
CN113241117A (zh) * 2021-05-21 2021-08-10 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6251586B1 (en) * 1995-10-02 2001-06-26 The United States Of America As Represented By The Department Of Health And Human Services Epithelial protein and DNA thereof for use in early cancer detection
CN102609715A (zh) * 2012-01-09 2012-07-25 江西理工大学 一种结合多个兴趣点检测子的物体类识别方法
KR20160057003A (ko) * 2014-11-12 2016-05-23 인하대학교 산학협력단 결합 상대방을 고려하여 rna 서열에서 단백질과 결합하는 부위를 예측하는 방법
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112837747A (zh) * 2021-01-13 2021-05-25 上海交通大学 基于注意力孪生网络的蛋白质结合位点预测方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113241117A (zh) * 2021-05-21 2021-08-10 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOYONG PAN ETAL.: "Predicting RNA–protein binding sites and motifs through combining local and global deep convolutional neural networks", 《BIOINFORMATICS》 *
常征等: "多特征融合的 lncRNA 识别与其功能预测", 《智能系统学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420211A (zh) * 2022-03-28 2022-04-29 鲁东大学 一种基于注意力机制的rna-蛋白质结合位点预测方法
CN114882945A (zh) * 2022-07-11 2022-08-09 鲁东大学 一种基于集成学习的rna-蛋白质结合位点预测方法
CN116153396A (zh) * 2023-04-21 2023-05-23 鲁东大学 一种基于迁移学习的非编码变异预测方法
CN116364195A (zh) * 2023-05-10 2023-06-30 浙大城市学院 一种基于预训练模型的微生物遗传序列表型预测方法
CN116364195B (zh) * 2023-05-10 2023-10-13 浙大城市学院 一种基于预训练模型的微生物遗传序列表型预测方法
CN116805514A (zh) * 2023-08-25 2023-09-26 鲁东大学 一种基于深度学习的dna序列功能预测方法
CN116805514B (zh) * 2023-08-25 2023-11-21 鲁东大学 一种基于深度学习的dna序列功能预测方法
CN116844646A (zh) * 2023-09-04 2023-10-03 鲁东大学 一种基于深度对比学习的酶功能预测方法
CN116844646B (zh) * 2023-09-04 2023-11-24 鲁东大学 一种基于深度对比学习的酶功能预测方法

Also Published As

Publication number Publication date
CN113936738B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN113936738B (zh) 一种基于卷积神经网络的rna-蛋白质结合位点预测方法
Shrikumar et al. Technical note on transcription factor motif discovery from importance scores (TF-MoDISco) version 0.5. 6.5
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN114420211A (zh) 一种基于注意力机制的rna-蛋白质结合位点预测方法
CN112669905B (zh) 基于数据增强的rna序列编码潜力预测方法及系统
Wang et al. DeepDNA: A hybrid convolutional and recurrent neural network for compressing human mitochondrial genomes
CN115310664A (zh) 基于基因调控遗传算法的rbf神经网络训练方法及预测系统
Wang et al. A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences
US20060121493A1 (en) DNA computer and a computation method using the same
Hernaez et al. A cluster-based approach to compression of quality scores
CN112887509A (zh) 一种基于多混沌系统的融合加密方法
CN115881209B (zh) 一种rna二级结构预测的处理方法和装置
Mohammed et al. DNA-based steganography using neural networks
CN113077849B (zh) 一种大肠杆菌β-内酰胺类获得性耐药表型预测复合方法
Nasser et al. Multiple sequence alignment using fuzzy logic
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
CN115495546A (zh) 相似文本检索方法、系统、设备及存储介质
CN115908909A (zh) 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统
CN115836350A (zh) 用于确定新抗原的呈递可能性的方法、系统和计算机程序产品
CN115769300A (zh) 变体致病性评分和分类及其用途
CN111508556A (zh) 基于单序列和全卷积神经网络的蛋白质接触图预测方法
Li et al. A general framework for biclustering gene expression data
Saah et al. MulAligner: A Multiple Sequence Alignment Error-Correction Tool Using Deep Learning Algorithm
Guo et al. Deep Effective k-mer representation learning for polyadenylation signal prediction via co-occurrence embedding
Taş et al. Computing linkage disequilibrium aware genome embeddings using autoencoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant