CN110060728A - 基于递归神经网络的rna二级结构预测方法 - Google Patents
基于递归神经网络的rna二级结构预测方法 Download PDFInfo
- Publication number
- CN110060728A CN110060728A CN201910284852.0A CN201910284852A CN110060728A CN 110060728 A CN110060728 A CN 110060728A CN 201910284852 A CN201910284852 A CN 201910284852A CN 110060728 A CN110060728 A CN 110060728A
- Authority
- CN
- China
- Prior art keywords
- sequence
- secondary structure
- rna
- rna secondary
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 29
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims abstract description 78
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 6
- 230000004913 activation Effects 0.000 claims description 15
- 238000005498 polishing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000012549 training Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000006820 DNA synthesis Effects 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种RNA二级结构的预测方法,本发明通过对PDB数据集中的RNA一级序列数据集进行数据预处理,将RNA一级序列按长度分为长序列、中序列和长序列,随后对序列信息进行向量化,得到矩阵形式表示的特征信息,并分别以长序列、中序列和短序列最长的序列信息为标准,将不足标准的序列样本的特征信息进行填充,得到固定维度的特征矩阵;将特征矩阵输入到基于递归神经网络建立的LSTM模型中,利用LSTM模型进行RNA二级结构预测。本发明可以对RNA二级结构进行预测,预测结果较为准确,而且可以能够进一步的挖掘RNA序列的隐含特征,有助于预测出更精准的RNA二级结构。
Description
技术领域
本发明涉及生物研究领域,特别涉及一种基于递归神经网络的 RNA二级结构预测方法。
背景技术
核糖核苷酸分子RNA作为生物体内一种大分子,它是存在于生物体中重要的物质,不仅与脱氧核糖核苷酸分子DNA和蛋白质共同协作维持生物体的各项活动的进行,并且在DNA和蛋白质合成中扮演着重要的角色。研究发现,对RNA结构的研究能够帮助我们更加全面地了解RNA分子功能,这样就有利于生物研究学者探索RNA与DNA和蛋白质间的相互关系,从而了解生物体功能并且了解和治疗疾病。
RNA分子结构由三部分结构组成:一级序列、二级结构、三级空间结构。RNA三级空间结构是由二级结构单元之间的相互作用,扭曲、折叠等等在空间中形成的稳定结构,因此RNA二级结构的预测对于 RNA结构来说起着重要的作用,如何有效地RNA二级结构成为生物信息学领域的重要研究问题之一。
传统地预测RNA二级结构的方法都是用实验物理、化学或计算机等方法预测其结构。但RNA分子本身具有晶体难以获得、分子降解速度快等特点,所以用实验物理、化学实验的方法预测其二级结构相对耗时长、成本高。而利用基于比较序列分析法和基于最小自由能法的计算机来预测这些空间结构,较传统方法虽然提高了预测的效率,但对于RNA一级序列基数较长的二级结构来说,其预测的时间和费用也远远增加。并且这些方法往往受限于RNA的生化特性,而且RNA序列的可用特征过少,传统的机器学习方法在缺少特征的情况下难以发挥强大的作用。
发明内容
本发明的目的在于,提供一种基于递归神经网络的RNA二级结构预测方法。本发明可以对RNA二级结构进行预测,预测结果较为准确,而且可以能够进一步的挖掘RNA序列的隐含特征,有助于预测出更精准的RNA二级结构。
本发明的技术方案:基于递归神经网络的RNA二级结构预测方法,按下述步骤进行:
a、对PDB数据集中的RNA一级序列数据集进行数据预处理,将 RNA一级序列数据集中的RNA一级序列按长度分为大于50nt的长序列、20nt-50nt的中序列和小于20nt的短序列;
b、将长序列、中序列和短序列中的序列信息进行向量化,得到矩阵形式表示的特征信息,并以长序列、中序列和短序列中最长的序列信息为标准,将不足标准的序列样本的特征信息进行填充,得到固定维度的特征矩阵;
c、将特征矩阵作为序列索引输入到基于递归神经网络建立的 LSTM模型中,利用LSTM模型进行RNA二级结构预测。
上述的基于递归神经网络的RNA二级结构预测方法,所述LSTM 模型的预测过程中,定义当前时刻为t,上一时刻为t-1,下一时刻为 t+1;所述LSTM模型在每一时刻均设有包括遗忘门、输入门和输出门的三个节点;在t时刻时,每个所述序列索引通过遗忘门计算遗忘 t-1时刻的细胞状态概率;在t时刻时,向输入门输入序列索引在t-1 时刻的细胞状态,经输入门对细胞状态进行更新,再将更新后的细胞状态通过输出门进行输出,得到t+1时刻时输入门的细胞状态。
前述的基于递归神经网络的RNA二级结构预测方法,所述的遗忘门的计算公式为:
f(t)=σ(Wfh(t-1)+Ufx(t)+bf);
其中,它的输入为h(t-1)和x(t),输出在[0,1]之间,1表示“完全保留”,0表示“完全舍弃”,其中σ为sigmoid激活函数。
前述的基于递归神经网络的RNA二级结构预测方法,所述LSTM 输入门由两个部分组成,第一部分使用sigmoid激活函数,它的输出为i(t),第二部分则用tanh激活函数,这部分的输出为a(t),这两个部分的结果相乘再去更新其细胞状态,其中输入门的公式表达为:
i(t)=σ(Wih(t-1)+Uix(t)+bi)
a(t)=tanh(Wah(t-1)+Uax(t)+ba),
由上述两公式联立后,细胞状态C(t)的表达式为:
前述的基于递归神经网络的RNA二级结构预测方法,所述当前时刻t时的细胞状态有两个输出,分别为i(t)和a(t),先通过sigmoid激活函数来确定细胞状态中的i(t)或a(t)来作为输出,然后再通过tanh 处理,将处理后的结果和sigmoid激活函数的输出相乘,得到输出门的表达式:
o(t)=σ(Woh(t-1)+Uox(t)+bo)
输出门输出后的细胞状态作为t+1时刻的输入进入输入门,如此不断进行传输和更新,直至RNA二级结构预测完成。
前述的基于递归神经网络的RNA二级结构预测方法,所述在 LSTM模型的预测过程中,还对LSTM模型中的全连接层和LSTM层进行高斯随机初始化,初始化结果进一步迭代收敛到一个较低的损失值,通过逐步降低损失值来达到最佳预测结果。
前述的基于递归神经网络的RNA二级结构预测方法,所述步骤c 中LSTM模型的预测过程中,RNA序列最长定义为K,序列维度为K 维,对于每个样本的输入矩阵,不足K维的部分用0补齐,即对于不足于K个碱基的序列向量A=[a1,a2,…,an],其中n﹤=K,将其补齐后的输入向量为:A=[a1,a2,…,an,an+1,…,aK],其中an+1,…,aK均为0。
与现有技术比较,本发明具有以下有益效果:
1、通过对PDB数据集中的RNA一级序列数据集进行数据预处理,将RNA一级序列数据集中的RNA一级序列按长度分为长序列、中序列和长序列,随后对长序列、中序列和短序列中的序列信息进行向量化,得到矩阵形式表示的特征信息,并分别以长序列、中序列和短序列最长的序列信息为标准,将不足标准的序列样本的特征信息进行填充,得到固定维度的特征矩阵;将特征矩阵作为序列索引输入到基于递归神经网络建立的LSTM模型中,利用LSTM模型进行RNA二级结构预测。本发明可以将数据映射到高维空间中,可以更加方便地发现RNA一级序列中更为隐藏的内在特征,提高了RAN二级结构的预测准确率。
2、本发明的LSTM模型在每一时刻均设置包括遗忘门、输入门和输出门的三个节点,通过遗忘门计算遗忘上一时刻细胞状态的概率,通过向输入门输入序列索引在t-1时刻的细胞状态,经输入门对细胞状态进行更新,再将更新后的细胞状态通过输出门进行输出,得到t+1 时刻时输入门的细胞状态,不断进行传输和更新,直至RNA二级结构预测完成。本发明可以长时间记忆网络,相对于常规的递归神经网络模型来说,不会出现梯度消失或梯度保证的问题,可以学习到长范围的序列问题。
3、本发明还对LSTM模型中的全连接层和LSTM层进行高斯随机初始化,初始化结果进一步迭代收敛到一个较低的损失值,通过逐步降低损失值来达到最佳预测结果。本发明还进一步地确定了样本的特征矩阵的方法,以此来得到固定纬度的特征矩阵进行输入,大大地提高了RNA二级结构预测的准确性。
附图说明:
图1是本发明从PDB数据中查询的其中一个RNA信息’2JTP.pdb’中的部分示例;
图2是本发明的LSTM的模型结构示意图。
图3是本发明RNA二级结构预测精确度柱形对比图;
图4是本发明RNA二级结构预测召回率柱形对比图;
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例1:基于递归神经网络的RNA二级结构预测方法,按下述步骤进行:从PDB数据库官网下载得到PDB数据集,如图1所示为下载得到的PDB数据中其中一个RNA信息’2JTP.pdb’中的部分示例,PDB数据库中包含有RNA序列信息、RNA的一级序列和三维空间坐标三个部分,图中可以看出’SEQRES’中就记录着RNA的一级序列,先对PDB 数据集进行数据预处理,通过正则表达式的方式将一级序列提取出来,其中有部分数据是有除A、C、G、U的其他字符的,这时需要清洗掉这些字符得到正确的RNA一级序列。所述机器学习模型的建模方式选用python扩展库中scikit-learn包中的SVM包直接建模,选用高斯核函数:K(x,z)=exp(-γ||x-z||2)来作为空间映射函数,C和gamma作为模型参数。本发明RNA二级结构预测准确率的度量标准是支持向量机模型中的精确率precision,召回率recall,以及两者之间的权重比例系数f1-score。在RNA二级结构预测中,用TP表示正确预测碱基对的个数;FN表示真实结构中存在但没有被正确预测出的碱基对个数;FP 表示真实结构中不存在却被错误预测到的碱基对个数;TN表示正确预测的不配对的碱基个数。具体计算公式为:
f1为当β=1时的值:此时准确率和召回率一样重要。
通过对PBD数据集进行数据预处理最终得到无假结的282条RNA 一级序列和具有假结的37条RNA基因序列。首先对282条无假结结构的PDB数据进行预测分析,这282条无假结结构的PDB数据一共包含有7175个碱基。其中长序列(50nt以上)有16条,中序列(20nt-50nt)有203条,短序列(20nt以下)有66条。训练过程中采用的是小批量梯度下降算法(Mini-batch Gradient Descent),根据样本数量,每次更新参数时所用的样本数量为50,即batch-size 取值为50。长序列、中序列和短序列最长的为131,既表示所有序列维度为131维,对于每个样本的输入矩阵,不足131维的部分用0 补齐,即对于不足于131个碱基的序列向量A=[a1,a2,…,an],其中 n<=131,将其补齐后的输入向量为:A=[a1,a2,…,an,an+1,…,a131],其中 an+1,…,a131均为0。将这些PDB数据的7175个碱基分为7:3的训练集和验证集。用5022个碱基进行基于迭代计算误差的方法训练预测出结果,再用2153个碱基做验证得到精确率和召回率。支持向量机模型选用RBF核函数,通过网格搜索的方式,得到参数c=5000, gamma=0.0001为最佳参数,最后利用LSTM模型进行RNA二级结构预测。
进一步地,所示LSTM模型结构如图2所示为,在每个序列索引在t时刻的向前传播除了和RNN(递归神经网络)一样的隐藏状态h(t),还多了一个隐藏状态,即,Ct-1→Ct过程,这个隐藏状态我们称为细胞状态(Cell State)记作C(t),在细胞状态只有少量的线性相互作用,直线上的信息流不会轻易改变。
所述LSTM模型的预测过程中,定义当前时刻为t,上一时刻为 t-1,下一时刻为t+1;所述LSTM模型在每一时刻均设有包括遗忘门、输入门和输出门的三个节点;在t时刻时,每个所述序列索引通过遗忘门计算遗忘t-1时刻的细胞状态概率;在t时刻时,向输入门输入序列索引在t-1时刻的细胞状态,经输入门对细胞状态进行更新,再将更新后的细胞状态通过输出门进行输出,得到t+1时刻时输入门的细胞状态。
所述的遗忘门的计算公式为:
f(t)=σ(Wfh(t-1)+Ufx(t)+bf);
其中,它的输入为h(t-1)和x(t),输出在[0,1]之间,1表示“完全保留”,0表示“完全舍弃”,其中σ为sigmoid激活函数。
所述LSTM输入门由两个部分组成,第一部分使用sigmoid激活函数,它的输出为i(t),第二部分则用tanh激活函数,这部分的输出为a(t),这两个部分的结果相乘再去更新其细胞状态,其中输入门的公式表达为:
i(t)=σ(Wih(t-1)+Uix(t)+bi)
a(t)=tanh(Wah(t-1)+Uax(t)+ba),
由上述两公式联立后,细胞状态C(t)的表达式为:
所述当前时刻t时的细胞状态有两个输出,分别为i(t)和a(t),先通过sigmoid激活函数来确定细胞状态中的i(t)或a(t)来作为输出,然后再通过tanh处理,将处理后的结果和sigmoid激活函数的输出相乘,得到输出门的表达式:
o(t)=σ(Woh(t-1)+Uox(t)+bo)
输出门输出后的细胞状态作为t+1时刻的输入进入输入门,如此不断进行传输和更新,直至RNA二级结构预测完成,相对于常规的递归神经网络模型来说,不会出现梯度消失或梯度保证的问题,可以学习到长范围的序列问题。
所述步骤c中LSTM模型的训练中还对全连接层和LSTM层进行高斯随机初始化,初始化结果在LSTM部分进一步迭代收敛到一个较低的损失值,通过逐步降低损失值来达到最佳预测结果。
所述步骤c中LSTM模型的中还有设有Dropout层、正则化和设定阈值提前终止机制。正则化是为防止模型随意拟合训练数据的噪声,通过控制权重大小的策略,有L1和L2两种正则化函数;添加 Dropout层是深度学习中常用的训练方法,通过改变深度学习网络本身的结构来达到防止过拟合的效果,即在每一个迭代的过程中,会随机选择丢弃神经网络的某些节点使它们不参与训练;提前终止策略是对训练模型设置阈值,使其在收敛前停止迭代。
本发明还采用支持向量机(SVM)、随机森林(Random Forest)、k 邻近(K-Neighbors)三种机器监督学习算法对RNA二级结构进行预测,随后进行与本发明的的预测结果进行对比分析。其四种算法下的 RNA二级结构预测精确度如图3所示,RNA二级结构预测召回率如图 4所示。从图3和图4中可以看出图中用循环神经网络的算法做出的预测结果确实在基础机器学习算法的预测结果上有所提升,并提升了6-10个百分点,这对于基于机器学习算法对RNA二级结构预测有很大的突破。
综上所述,本发明通过对PDB数据集中的RNA一级序列数据集进行数据预处理,将RNA一级序列数据集中的RNA一级序列按长度分为长序列、中序列和长序列,随后对长序列、中序列和短序列中的序列信息进行向量化,得到矩阵形式表示的特征信息,并分别以长序列、中序列和短序列最长的序列信息为标准,将不足标准的序列样本的特征信息进行填充,得到固定维度的特征矩阵;将特征矩阵作为序列索引输入到基于递归神经网络建立的LSTM模型中,对LSTM模型进行训练;最后利用训练后LSTM模型进行RNA二级结构预测。本发明可以将数据映射到高维空间中,可以更加方便地发现RNA一级序列中更为隐藏的内在特征,提高了RAN二级结构的预测准确率。进一步地,本发明相对于常规的递归神经网络模型来说,不会出现梯度消失或梯度保证的问题,可以学习到长范围的序列问题。再进一步地,本发明还对LSTM 模型中的全连接层和LSTM层进行高斯随机初始化,初始化结果进一步迭代收敛到一个较低的损失值,通过逐步降低损失值来达到最佳预测结果。本发明还进一步地确定了样本的特征矩阵的方法,以此来得到固定纬度的特征矩阵进行输入,大大地提高了RNA二级结构预测的准确性。
Claims (7)
1.基于递归神经网络的RNA二级结构预测方法,其特征在于:按下述步骤进行:
a、对PDB数据集中的RNA一级序列数据集进行数据预处理,将RNA一级序列数据集中的RNA一级序列按长度分为大于50nt的长序列、20nt-50nt的中序列和小于20nt的短序列;
b、将长序列、中序列和短序列中的序列信息进行向量化,得到矩阵形式表示的特征信息,并以长序列、中序列和短序列中最长的序列信息为标准,将不足标准的序列样本的特征信息进行填充,得到固定维度的特征矩阵;
c、将特征矩阵作为序列索引输入到基于递归神经网络建立的LSTM模型中,利用LSTM模型进行RNA二级结构预测。
2.根据权利要求1所述的基于递归神经网络的RNA二级结构预测方法,其特征在于:所述LSTM模型的预测过程中,定义当前时刻为t,上一时刻为t-1,下一时刻为t+1;所述LSTM模型在每一时刻均设有包括遗忘门、输入门和输出门的三个节点;在t时刻时,每个所述序列索引通过遗忘门计算遗忘t-1时刻的细胞状态概率;在t时刻时,向输入门输入序列索引在t-1时刻的细胞状态,经输入门对细胞状态进行更新,再将更新后的细胞状态通过输出门进行输出,得到t+1时刻时输入门的细胞状态。
3.根据权利要求2所述的基于递归神经网络的RNA二级结构预测方法,其特征在于:所述的遗忘门的计算公式为:
f(t)=σ(Wfh(t-1)+Ufx(t)+bf);
其中,它的输入为h(t-1)和x(t),输出在[0,1]之间,1表示“完全保留”,0表示“完全舍弃”,其中σ为sigmoid激活函数。
4.根据权利要求3所述的基于递归神经网络的RNA二级结构预测方法,其特征在于:所述LSTM输入门由两个部分组成,第一部分使用sigmoid激活函数,它的输出为i(t),第二部分则用tanh激活函数,这部分的输出为a(t),这两个部分的结果相乘再去更新其细胞状态,其中输入门的公式表达为:
i(t)=σ(Wih(t-1)+Uix(t)+bi)
a(t)=tanh(Wah(t-1)+Uax(t)+ba),
由上述两公式联立后,细胞状态C(t)的表达式为:
5.根据权利要求4所述的基于递归神经网络的RNA二级结构预测方法,其特征在于:所述当前时刻t时的细胞状态有两个输出,分别为i(t)和a(t),先通过sigmoid激活函数来确定细胞状态中的i(t)或a(t)来作为输出,然后再通过tanh处理,将处理后的结果和sigmoid激活函数的输出相乘,得到输出门的表达式:
o(t)=σ(Woh(t-1)+Uox(t)+bo)
输出门输出后的细胞状态作为t+1时刻的输入进入输入门,如此不断进行传输和更新,直至RNA二级结构预测完成。
6.根据权利要求1所述的基于递归神经网络的RNA二级结构预测方法,其特征在于:所述在LSTM模型的预测过程中,还对LSTM模型中的全连接层和LSTM层进行高斯随机初始化,初始化结果进一步迭代收敛到一个较低的损失值,通过逐步降低损失值来达到最佳预测结果。
7.根据权利要求1所述的基于递归神经网络的RNA二级结构预测方法,其特征在于:所述步骤c中LSTM模型的预测过程中,RNA序列最长定义为K,序列维度为K维,对于每个样本的输入矩阵,不足K维的部分用0补齐,即对于不足于K个碱基的序列向量A=[a1,a2,…,an],其中n﹤=K,将其补齐后的输入向量为:A=[a1,a2,…,an,an+1,…,aK],其中an+1,…,aK均为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284852.0A CN110060728A (zh) | 2019-04-10 | 2019-04-10 | 基于递归神经网络的rna二级结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284852.0A CN110060728A (zh) | 2019-04-10 | 2019-04-10 | 基于递归神经网络的rna二级结构预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110060728A true CN110060728A (zh) | 2019-07-26 |
Family
ID=67318763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910284852.0A Pending CN110060728A (zh) | 2019-04-10 | 2019-04-10 | 基于递归神经网络的rna二级结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110060728A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101631A (zh) * | 2020-08-20 | 2020-12-18 | 东华大学 | 一种基于循环神经网络的产品工期预测方法 |
CN112820350A (zh) * | 2021-03-18 | 2021-05-18 | 湖南工学院 | 基于迁移学习的赖氨酸丙酰化预测方法和系统 |
CN114121149A (zh) * | 2021-12-01 | 2022-03-01 | 天津理工大学 | 一种基于双向gru和注意力机制的rna二级结构预测算法 |
DE202022101929U1 (de) | 2022-04-09 | 2022-06-02 | Pradipta Bhowmick | Intelligentes System zur Vorhersage der Sekundärstruktur von RNA unter Verwendung von faltbaren neuronalen Netzen und künstlicher Intelligenz |
CN115881209A (zh) * | 2023-02-15 | 2023-03-31 | 北京深势科技有限公司 | 一种rna二级结构预测的处理方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629150A (zh) * | 2018-03-16 | 2018-10-09 | 西安电子科技大学 | 基于多种群协助的量子遗传算法的rna二级结构预测方法 |
-
2019
- 2019-04-10 CN CN201910284852.0A patent/CN110060728A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629150A (zh) * | 2018-03-16 | 2018-10-09 | 西安电子科技大学 | 基于多种群协助的量子遗传算法的rna二级结构预测方法 |
Non-Patent Citations (4)
Title |
---|
HONGJIE WU ET AL: "RNA Secondary Structure Prediction Based on Long Short-Term Memory Model", 《INTELLIGENT COMPUTING THEORIES AND APPLICATION》 * |
吴辉: "利用序列信息预测蛋白质二级结构的深度学习模型研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
蔡磊鑫: "基于深度学习的RNA二级结构预测研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
薛燕娜: "机器学习算法在蛋白质结构预测中的应用", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101631A (zh) * | 2020-08-20 | 2020-12-18 | 东华大学 | 一种基于循环神经网络的产品工期预测方法 |
CN112101631B (zh) * | 2020-08-20 | 2021-08-20 | 东华大学 | 一种基于循环神经网络的产品工期预测方法 |
CN112820350A (zh) * | 2021-03-18 | 2021-05-18 | 湖南工学院 | 基于迁移学习的赖氨酸丙酰化预测方法和系统 |
CN114121149A (zh) * | 2021-12-01 | 2022-03-01 | 天津理工大学 | 一种基于双向gru和注意力机制的rna二级结构预测算法 |
DE202022101929U1 (de) | 2022-04-09 | 2022-06-02 | Pradipta Bhowmick | Intelligentes System zur Vorhersage der Sekundärstruktur von RNA unter Verwendung von faltbaren neuronalen Netzen und künstlicher Intelligenz |
CN115881209A (zh) * | 2023-02-15 | 2023-03-31 | 北京深势科技有限公司 | 一种rna二级结构预测的处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110060728A (zh) | 基于递归神经网络的rna二级结构预测方法 | |
Cvijović et al. | Taboo search: an approach to the multiple minima problem | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
US20070294067A1 (en) | Prediction of estrogen receptor status of breast tumors using binary prediction tree modeling | |
CN114927162A (zh) | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 | |
US9043326B2 (en) | Methods and systems for biclustering algorithm | |
Ris et al. | U-curve: A branch-and-bound optimization algorithm for U-shaped cost functions on Boolean lattices applied to the feature selection problem | |
US20220121939A1 (en) | Systems and methods for high-order modeling of predictive hypotheses | |
Vannucci et al. | Bayesian models for variable selection that incorporate biological information | |
CN113724790B (zh) | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 | |
Priya et al. | Heuristically repopulated Bayesian ant colony optimization for treating missing values in large databases | |
CN109390032B (zh) | 一种基于进化算法在全基因组关联分析的数据中探索与疾病相关的snp组合的方法 | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
Kassani et al. | Pseudoinverse matrix decomposition based incremental extreme learning machine with growth of hidden nodes | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN113342995B (zh) | 一种基于路径语义和特征提取的负样本提取方法 | |
US20230122168A1 (en) | Conformal Inference for Optimization | |
Licon et al. | A dynamic programming algorithm for finding the optimal segmentation of an RNA sequence in secondary structure predictions | |
Kanjanasupawan et al. | Prediction Sequence Patterns of Tourist from the Tourism Website by Hybrid Deep Learning Techniques | |
Sato et al. | A non-parametric Bayesian approach for predicting RNA secondary structures | |
Wu | Binomial matrix factorization for discrete collaborative filtering | |
Li et al. | Using modified lasso regression to learn large undirected graphs in a probabilistic framework | |
Turner et al. | rG4detector: convolutional neural network to predict RNA G-quadruplex propensity based on rG4-seq data | |
Igbinedion et al. | Fast softmax sampling for deep neural networks | |
CN117976047B (zh) | 基于深度学习的关键蛋白质预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |