CN110060728A

CN110060728A - 基于递归神经网络的rna二级结构预测方法

Info

Publication number: CN110060728A
Application number: CN201910284852.0A
Authority: CN
Inventors: 孙婷婷; 苏静杰
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-07-26

Abstract

本发明公开了一种RNA二级结构的预测方法，本发明通过对PDB数据集中的RNA一级序列数据集进行数据预处理，将RNA一级序列按长度分为长序列、中序列和长序列，随后对序列信息进行向量化，得到矩阵形式表示的特征信息，并分别以长序列、中序列和短序列最长的序列信息为标准，将不足标准的序列样本的特征信息进行填充，得到固定维度的特征矩阵；将特征矩阵输入到基于递归神经网络建立的LSTM模型中，利用LSTM模型进行RNA二级结构预测。本发明可以对RNA二级结构进行预测，预测结果较为准确，而且可以能够进一步的挖掘RNA序列的隐含特征，有助于预测出更精准的RNA二级结构。

Description

基于递归神经网络的RNA二级结构预测方法

技术领域

本发明涉及生物研究领域，特别涉及一种基于递归神经网络的 RNA二级结构预测方法。

背景技术

核糖核苷酸分子RNA作为生物体内一种大分子，它是存在于生物体中重要的物质，不仅与脱氧核糖核苷酸分子DNA和蛋白质共同协作维持生物体的各项活动的进行，并且在DNA和蛋白质合成中扮演着重要的角色。研究发现，对RNA结构的研究能够帮助我们更加全面地了解RNA分子功能，这样就有利于生物研究学者探索RNA与DNA和蛋白质间的相互关系，从而了解生物体功能并且了解和治疗疾病。

RNA分子结构由三部分结构组成：一级序列、二级结构、三级空间结构。RNA三级空间结构是由二级结构单元之间的相互作用，扭曲、折叠等等在空间中形成的稳定结构，因此RNA二级结构的预测对于 RNA结构来说起着重要的作用，如何有效地RNA二级结构成为生物信息学领域的重要研究问题之一。

传统地预测RNA二级结构的方法都是用实验物理、化学或计算机等方法预测其结构。但RNA分子本身具有晶体难以获得、分子降解速度快等特点，所以用实验物理、化学实验的方法预测其二级结构相对耗时长、成本高。而利用基于比较序列分析法和基于最小自由能法的计算机来预测这些空间结构，较传统方法虽然提高了预测的效率，但对于RNA一级序列基数较长的二级结构来说，其预测的时间和费用也远远增加。并且这些方法往往受限于RNA的生化特性，而且RNA序列的可用特征过少，传统的机器学习方法在缺少特征的情况下难以发挥强大的作用。

发明内容

本发明的目的在于，提供一种基于递归神经网络的RNA二级结构预测方法。本发明可以对RNA二级结构进行预测，预测结果较为准确，而且可以能够进一步的挖掘RNA序列的隐含特征，有助于预测出更精准的RNA二级结构。

本发明的技术方案：基于递归神经网络的RNA二级结构预测方法，按下述步骤进行：

a、对PDB数据集中的RNA一级序列数据集进行数据预处理，将 RNA一级序列数据集中的RNA一级序列按长度分为大于50nt的长序列、20nt-50nt的中序列和小于20nt的短序列；

b、将长序列、中序列和短序列中的序列信息进行向量化，得到矩阵形式表示的特征信息，并以长序列、中序列和短序列中最长的序列信息为标准，将不足标准的序列样本的特征信息进行填充，得到固定维度的特征矩阵；

c、将特征矩阵作为序列索引输入到基于递归神经网络建立的 LSTM模型中，利用LSTM模型进行RNA二级结构预测。

上述的基于递归神经网络的RNA二级结构预测方法，所述LSTM 模型的预测过程中，定义当前时刻为t，上一时刻为t-1,下一时刻为 t+1；所述LSTM模型在每一时刻均设有包括遗忘门、输入门和输出门的三个节点；在t时刻时，每个所述序列索引通过遗忘门计算遗忘 t-1时刻的细胞状态概率；在t时刻时，向输入门输入序列索引在t-1 时刻的细胞状态，经输入门对细胞状态进行更新，再将更新后的细胞状态通过输出门进行输出，得到t+1时刻时输入门的细胞状态。

前述的基于递归神经网络的RNA二级结构预测方法，所述的遗忘门的计算公式为：

f^(t)＝σ(W_fh^(t-1)+U_fx^(t)+b_f)；

其中，它的输入为h^(t-1)和x^(t)，输出在[0,1]之间，1表示“完全保留”，0表示“完全舍弃”，其中σ为sigmoid激活函数。

前述的基于递归神经网络的RNA二级结构预测方法，所述LSTM 输入门由两个部分组成，第一部分使用sigmoid激活函数，它的输出为i^(t)，第二部分则用tanh激活函数，这部分的输出为a^(t)，这两个部分的结果相乘再去更新其细胞状态，其中输入门的公式表达为：

i^(t)＝σ(W_ih^(t-1)+U_ix^(t)+b_i)

a^(t)＝tanh(W_ah^(t-1)+U_ax^(t)+b_a)，

由上述两公式联立后，细胞状态C^(t)的表达式为：

前述的基于递归神经网络的RNA二级结构预测方法，所述当前时刻t时的细胞状态有两个输出，分别为i^(t)和a^(t)，先通过sigmoid激活函数来确定细胞状态中的i^(t)或a^(t)来作为输出，然后再通过tanh 处理，将处理后的结果和sigmoid激活函数的输出相乘，得到输出门的表达式：

o^(t)＝σ(W_oh^(t-1)+U_ox^(t)+b_o)

输出门输出后的细胞状态作为t+1时刻的输入进入输入门，如此不断进行传输和更新，直至RNA二级结构预测完成。

前述的基于递归神经网络的RNA二级结构预测方法，所述在 LSTM模型的预测过程中，还对LSTM模型中的全连接层和LSTM层进行高斯随机初始化，初始化结果进一步迭代收敛到一个较低的损失值，通过逐步降低损失值来达到最佳预测结果。

前述的基于递归神经网络的RNA二级结构预测方法，所述步骤c 中LSTM模型的预测过程中，RNA序列最长定义为K，序列维度为K 维，对于每个样本的输入矩阵，不足K维的部分用0补齐，即对于不足于K个碱基的序列向量A＝[a₁,a₂,…,a_n]，其中n﹤＝K，将其补齐后的输入向量为：A＝[a₁,a₂,…,a_n,a_n+1,…,a_K]，其中a_n+1,…,a_K均为0。

与现有技术比较，本发明具有以下有益效果：

1、通过对PDB数据集中的RNA一级序列数据集进行数据预处理，将RNA一级序列数据集中的RNA一级序列按长度分为长序列、中序列和长序列，随后对长序列、中序列和短序列中的序列信息进行向量化，得到矩阵形式表示的特征信息，并分别以长序列、中序列和短序列最长的序列信息为标准，将不足标准的序列样本的特征信息进行填充，得到固定维度的特征矩阵；将特征矩阵作为序列索引输入到基于递归神经网络建立的LSTM模型中，利用LSTM模型进行RNA二级结构预测。本发明可以将数据映射到高维空间中，可以更加方便地发现RNA一级序列中更为隐藏的内在特征，提高了RAN二级结构的预测准确率。

2、本发明的LSTM模型在每一时刻均设置包括遗忘门、输入门和输出门的三个节点，通过遗忘门计算遗忘上一时刻细胞状态的概率，通过向输入门输入序列索引在t-1时刻的细胞状态，经输入门对细胞状态进行更新，再将更新后的细胞状态通过输出门进行输出，得到t+1 时刻时输入门的细胞状态，不断进行传输和更新，直至RNA二级结构预测完成。本发明可以长时间记忆网络，相对于常规的递归神经网络模型来说，不会出现梯度消失或梯度保证的问题，可以学习到长范围的序列问题。

3、本发明还对LSTM模型中的全连接层和LSTM层进行高斯随机初始化，初始化结果进一步迭代收敛到一个较低的损失值，通过逐步降低损失值来达到最佳预测结果。本发明还进一步地确定了样本的特征矩阵的方法，以此来得到固定纬度的特征矩阵进行输入，大大地提高了RNA二级结构预测的准确性。

附图说明：

图1是本发明从PDB数据中查询的其中一个RNA信息’2JTP.pdb’中的部分示例；

图2是本发明的LSTM的模型结构示意图。

图3是本发明RNA二级结构预测精确度柱形对比图；

图4是本发明RNA二级结构预测召回率柱形对比图；

具体实施方式

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例1：基于递归神经网络的RNA二级结构预测方法，按下述步骤进行：从PDB数据库官网下载得到PDB数据集，如图1所示为下载得到的PDB数据中其中一个RNA信息’2JTP.pdb’中的部分示例，PDB数据库中包含有RNA序列信息、RNA的一级序列和三维空间坐标三个部分，图中可以看出’SEQRES’中就记录着RNA的一级序列，先对PDB 数据集进行数据预处理，通过正则表达式的方式将一级序列提取出来，其中有部分数据是有除A、C、G、U的其他字符的，这时需要清洗掉这些字符得到正确的RNA一级序列。所述机器学习模型的建模方式选用python扩展库中scikit-learn包中的SVM包直接建模，选用高斯核函数：K(x,z)＝exp(-γ||x-z||²)来作为空间映射函数，C和gamma作为模型参数。本发明RNA二级结构预测准确率的度量标准是支持向量机模型中的精确率precision，召回率recall，以及两者之间的权重比例系数f1-score。在RNA二级结构预测中，用TP表示正确预测碱基对的个数；FN表示真实结构中存在但没有被正确预测出的碱基对个数；FP 表示真实结构中不存在却被错误预测到的碱基对个数；TN表示正确预测的不配对的碱基个数。具体计算公式为：

f₁为当β＝1时的值：此时准确率和召回率一样重要。

通过对PBD数据集进行数据预处理最终得到无假结的282条RNA 一级序列和具有假结的37条RNA基因序列。首先对282条无假结结构的PDB数据进行预测分析，这282条无假结结构的PDB数据一共包含有7175个碱基。其中长序列(50nt以上)有16条，中序列(20nt-50nt)有203条，短序列(20nt以下)有66条。训练过程中采用的是小批量梯度下降算法(Mini-batch Gradient Descent)，根据样本数量，每次更新参数时所用的样本数量为50，即batch-size 取值为50。长序列、中序列和短序列最长的为131，既表示所有序列维度为131维，对于每个样本的输入矩阵，不足131维的部分用0 补齐，即对于不足于131个碱基的序列向量A＝[a₁,a₂,…,a_n]，其中 n<＝131，将其补齐后的输入向量为：A＝[a₁,a₂,…,a_n,a_n+1,…,a₁₃₁]，其中 a_n+1,…,a₁₃₁均为0。将这些PDB数据的7175个碱基分为7:3的训练集和验证集。用5022个碱基进行基于迭代计算误差的方法训练预测出结果，再用2153个碱基做验证得到精确率和召回率。支持向量机模型选用RBF核函数，通过网格搜索的方式，得到参数c＝5000， gamma＝0.0001为最佳参数，最后利用LSTM模型进行RNA二级结构预测。

进一步地，所示LSTM模型结构如图2所示为，在每个序列索引在t时刻的向前传播除了和RNN(递归神经网络)一样的隐藏状态h^(t)，还多了一个隐藏状态，即，C_t-1→C_t过程，这个隐藏状态我们称为细胞状态(Cell State)记作C^(t)，在细胞状态只有少量的线性相互作用，直线上的信息流不会轻易改变。

所述LSTM模型的预测过程中，定义当前时刻为t，上一时刻为 t-1,下一时刻为t+1；所述LSTM模型在每一时刻均设有包括遗忘门、输入门和输出门的三个节点；在t时刻时，每个所述序列索引通过遗忘门计算遗忘t-1时刻的细胞状态概率；在t时刻时，向输入门输入序列索引在t-1时刻的细胞状态，经输入门对细胞状态进行更新，再将更新后的细胞状态通过输出门进行输出，得到t+1时刻时输入门的细胞状态。

所述的遗忘门的计算公式为：

f^(t)＝σ(W_fh^(t-1)+U_fx^(t)+b_f)；

所述LSTM输入门由两个部分组成，第一部分使用sigmoid激活函数，它的输出为i^(t)，第二部分则用tanh激活函数，这部分的输出为a^(t)，这两个部分的结果相乘再去更新其细胞状态，其中输入门的公式表达为：

i^(t)＝σ(W_ih^(t-1)+U_ix^(t)+b_i)

a^(t)＝tanh(W_ah^(t-1)+U_ax^(t)+b_a)，

由上述两公式联立后，细胞状态C^(t)的表达式为：

所述当前时刻t时的细胞状态有两个输出，分别为i^(t)和a^(t)，先通过sigmoid激活函数来确定细胞状态中的i^(t)或a^(t)来作为输出，然后再通过tanh处理，将处理后的结果和sigmoid激活函数的输出相乘，得到输出门的表达式：

o^(t)＝σ(W_oh^(t-1)+U_ox^(t)+b_o)

输出门输出后的细胞状态作为t+1时刻的输入进入输入门，如此不断进行传输和更新，直至RNA二级结构预测完成，相对于常规的递归神经网络模型来说，不会出现梯度消失或梯度保证的问题，可以学习到长范围的序列问题。

所述步骤c中LSTM模型的训练中还对全连接层和LSTM层进行高斯随机初始化，初始化结果在LSTM部分进一步迭代收敛到一个较低的损失值，通过逐步降低损失值来达到最佳预测结果。

所述步骤c中LSTM模型的中还有设有Dropout层、正则化和设定阈值提前终止机制。正则化是为防止模型随意拟合训练数据的噪声，通过控制权重大小的策略，有L1和L2两种正则化函数；添加 Dropout层是深度学习中常用的训练方法，通过改变深度学习网络本身的结构来达到防止过拟合的效果，即在每一个迭代的过程中，会随机选择丢弃神经网络的某些节点使它们不参与训练；提前终止策略是对训练模型设置阈值，使其在收敛前停止迭代。

本发明还采用支持向量机(SVM)、随机森林(Random Forest)、k 邻近(K-Neighbors)三种机器监督学习算法对RNA二级结构进行预测，随后进行与本发明的的预测结果进行对比分析。其四种算法下的 RNA二级结构预测精确度如图3所示，RNA二级结构预测召回率如图 4所示。从图3和图4中可以看出图中用循环神经网络的算法做出的预测结果确实在基础机器学习算法的预测结果上有所提升，并提升了6-10个百分点，这对于基于机器学习算法对RNA二级结构预测有很大的突破。

综上所述，本发明通过对PDB数据集中的RNA一级序列数据集进行数据预处理，将RNA一级序列数据集中的RNA一级序列按长度分为长序列、中序列和长序列，随后对长序列、中序列和短序列中的序列信息进行向量化，得到矩阵形式表示的特征信息，并分别以长序列、中序列和短序列最长的序列信息为标准，将不足标准的序列样本的特征信息进行填充，得到固定维度的特征矩阵；将特征矩阵作为序列索引输入到基于递归神经网络建立的LSTM模型中，对LSTM模型进行训练；最后利用训练后LSTM模型进行RNA二级结构预测。本发明可以将数据映射到高维空间中，可以更加方便地发现RNA一级序列中更为隐藏的内在特征，提高了RAN二级结构的预测准确率。进一步地，本发明相对于常规的递归神经网络模型来说，不会出现梯度消失或梯度保证的问题，可以学习到长范围的序列问题。再进一步地，本发明还对LSTM 模型中的全连接层和LSTM层进行高斯随机初始化，初始化结果进一步迭代收敛到一个较低的损失值，通过逐步降低损失值来达到最佳预测结果。本发明还进一步地确定了样本的特征矩阵的方法，以此来得到固定纬度的特征矩阵进行输入，大大地提高了RNA二级结构预测的准确性。

Claims

1.基于递归神经网络的RNA二级结构预测方法，其特征在于：按下述步骤进行：

a、对PDB数据集中的RNA一级序列数据集进行数据预处理，将RNA一级序列数据集中的RNA一级序列按长度分为大于50nt的长序列、20nt-50nt的中序列和小于20nt的短序列；

c、将特征矩阵作为序列索引输入到基于递归神经网络建立的LSTM模型中，利用LSTM模型进行RNA二级结构预测。

2.根据权利要求1所述的基于递归神经网络的RNA二级结构预测方法，其特征在于：所述LSTM模型的预测过程中，定义当前时刻为t，上一时刻为t-1,下一时刻为t+1；所述LSTM模型在每一时刻均设有包括遗忘门、输入门和输出门的三个节点；在t时刻时，每个所述序列索引通过遗忘门计算遗忘t-1时刻的细胞状态概率；在t时刻时，向输入门输入序列索引在t-1时刻的细胞状态，经输入门对细胞状态进行更新，再将更新后的细胞状态通过输出门进行输出，得到t+1时刻时输入门的细胞状态。

3.根据权利要求2所述的基于递归神经网络的RNA二级结构预测方法，其特征在于：所述的遗忘门的计算公式为：

f^(t)＝σ(W_fh^(t-1)+U_fx^(t)+b_f)；

4.根据权利要求3所述的基于递归神经网络的RNA二级结构预测方法，其特征在于：所述LSTM输入门由两个部分组成，第一部分使用sigmoid激活函数，它的输出为i^(t)，第二部分则用tanh激活函数，这部分的输出为a^(t)，这两个部分的结果相乘再去更新其细胞状态，其中输入门的公式表达为：

i^(t)＝σ(W_ih^(t-1)+U_ix^(t)+b_i)

a^(t)＝tanh(W_ah^(t-1)+U_ax^(t)+b_a)，

由上述两公式联立后，细胞状态C^(t)的表达式为：

5.根据权利要求4所述的基于递归神经网络的RNA二级结构预测方法，其特征在于：所述当前时刻t时的细胞状态有两个输出，分别为i^(t)和a^(t)，先通过sigmoid激活函数来确定细胞状态中的i^(t)或a^(t)来作为输出，然后再通过tanh处理，将处理后的结果和sigmoid激活函数的输出相乘，得到输出门的表达式：

o^(t)＝σ(W_oh^(t-1)+U_ox^(t)+b_o)

6.根据权利要求1所述的基于递归神经网络的RNA二级结构预测方法，其特征在于：所述在LSTM模型的预测过程中，还对LSTM模型中的全连接层和LSTM层进行高斯随机初始化，初始化结果进一步迭代收敛到一个较低的损失值，通过逐步降低损失值来达到最佳预测结果。

7.根据权利要求1所述的基于递归神经网络的RNA二级结构预测方法，其特征在于：所述步骤c中LSTM模型的预测过程中，RNA序列最长定义为K，序列维度为K维，对于每个样本的输入矩阵，不足K维的部分用0补齐，即对于不足于K个碱基的序列向量A＝[a₁,a₂,…,a_n]，其中n﹤＝K，将其补齐后的输入向量为：A＝[a₁,a₂,…,a_n,a_n+1,…,a_K]，其中a_n+1,…,a_K均为0。