CN114121149A

CN114121149A - 一种基于双向gru和注意力机制的rna二级结构预测算法

Info

Publication number: CN114121149A
Application number: CN202111450840.4A
Authority: CN
Inventors: 陈宇; 沈丛; 肖峰; 陈胜勇
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-03-01

Abstract

本发明涉及一种基于双向GRU和注意力机制的RNA二级结构预测算法，该方法首先获取到RNA二级结构数据集；然后进行数据预处理，即将RNA序列信息进行向量化，得到矩阵形式表示的特征信息，并按固定维度进行特征矩阵拼接；设计融合了加权向量、标志向量，在双向GRU神经网络的基础上，增加了注意力机制，增强了网络的预测能力；然后将特征矩阵输入到网络中对RNA二级结构进行预测，充分的利用了前后碱基的信息，预测结果较为准确，而且能够处理变长的RNA序列，同时，可以有效地处理正负样本不平衡的问题，有助于预测出更精准的RNA二级结构。

Description

一种基于双向GRU和注意力机制的RNA二级结构预测算法

技术领域

本发明涉及生物研究领域，特别涉及一种基于双向GRU网络和注意力机制的RNA二级结构预测方法。

背景技术

RNA作为存储信息的中间媒介，包含丰富的生化信息，且影响了RNA三级结构。如新型急性呼吸综合征冠状病毒COVID-19，其中的单链RNA，能转录并最终翻译生成新生病毒的蛋白质。也有不直接编码蛋白质的RNA序列，称为非编码RNA(ncRNA)。最近的研究表明，ncRNA可作为COVID-19患者病理表现的生物标记和可能的治疗手段。

RNA分子结构有三个层次的描述，包括一级序列、二级结构和三级空间结构。尽管RNA 三级空间结构是在空间中形成的一种稳定结构，但它是由二级结构单元之间的相互作用、变形、折叠等产生的。此外，如果没有RNA二级结构，RNA三级结构是很难获得的。而且RNA二级结构预测不仅需要考虑序列的排列，还需要考虑稳定的配对方式，包括假结、发夹等。由于这些结构的存在，RNA二级结构预测的情况比一级结构复杂得多。如何有效地识别RNA二级结构已经成为生物信息学中具有挑战性的研究领域之一。

近年来，深度学习技术已在人工智能领域取得了突破性的进展，在生物信息领域也有所应用。其中，如何将深度学习相关技术应用于RNA二级结构预测是计算生物学领域中具有代表性的课题之一，该领域结合了生物信息学及计算科学中的模式识别等相关技术。传统的机器学习技术中对序列建模经典的是隐马尔可夫模型(HMM)，它需要原始数据具备一定的特征表达能力，这种特征表达往往是通过人工标注完成。随着计算生物学的发展，深度学习的方法在生物信息领域的应用上取得了很好的效果。传统机器学习模型通常会丢失全局信息，并需要耗费大量的特征工程成本。但在深度学习方法上，可以从原始数据中自动学习出一定的特征表达。

双向循环神经网络是一种深度学习架构，每一个训练序列向前和向后分别是两个循环神经网络，而且这两个都连接着一个输出层。这种结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。由于RNA二级结构的复杂性，引入注意力机制来计算注意力分配概率分布信息，重点关注RNA二级结构预测过程中的重要信息，以提高RNA二级结构预测精度。因此，可以利用双向GRU神经网络和注意力机制结合的深度学习方法对RNA二级结构进行预测，并针对处理变长的RNA序列和正负样本不平衡的特定问题，提出了特定的网络架构模型。

发明内容

本发明的目的在于提供一种基于双向GRU神经网络和注意力机制的RNA二级结构预测算法，以提高RNA二级结构预测的精度，解决RNA二级结构预测中的难点。

为此，本发明采用的技术方案，包括下列步骤：

1.对RNA二级结构的数据集进行数据预处理，即将数据集中的序列信息进行向量化，得到矩阵形式表示的特征信息，并进行矩阵拼接，得到固定维度的特征矩阵；

2.将特征矩阵输入到基于双向GRU神经网络和注意力机制的网络模型中，进行RNA二级结构预测；

3.进行多次实验，探究最佳的网络参数，并记录每次的评价指标；

4.设计对比实验，探究该方法的可行性和优越性。

本发明提供一种基于双向GRU神经网络和注意力机制的RNA二级结构预测算法，其优点在于：

1.由于网络使用的是双向GRU神经网络，因此实验结果相对于其他方法更能充分利用 RNA二级结构信息，预测结果更准确。

2.本发明在双向GRU层之后增加了注意力机制层，对包含更多有效信息的特征分配更大的权重，突出RNA二级结构中的重要信息，并提高隐藏层特征提取的质量，方法可行，通过微调，可应用于其他计算生物学预测领域中。

3.本发明为序列中的每个碱基提供了一个标志向量，以便于处理包含不同长度RNA序列的数据集。

4.本发明还为每个样本设置了一个权重向量，以解决正样本和负样本之间的不平衡问题。换言之，在计算每个基的损失函数时，可以自适应地调整每个基在损失函数中的比例，以避免模型陷入局部最优，使训练后的模型更好。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明中所需要使用的附图作简单地介绍：

图1：本发明提供的基于双向GRU神经网络和注意力机制的RNA二级结构预测算法中的流程示意图；

图2：本发明采用的网络模型架构示意图；

图3：本发明利用数据集做预测，得到的RNA二级结构预测结果，并与其他典型方法的预测结果对比图；

在图2中：图中的文字表示相应的子模块。“/”表示双向GRU层之后的连接操作；“×”表示退出操作。位于左下角的子图是关于正向传播GRU的单元结构。上标(f)和(b)表示GRU向前或向后。

具体实施方式

下面结合附图对本发明作进一步的具体说明，对本发明中的技术方案进行清楚、完整地描述。

为了解决RNA二级结构预测过程中的种种困难，本发明设计出一种基于双向GRU神经网络和注意力机制的RNA二级结构预测算法，如图2所示，该RNA二级结构预测网络主要包含图中的几个部分，利用官网上下载的RNA二级结构数据集作为训练数据集，先经过数据预处理和特征提取获得特征矩阵，再通过本发明提出的网络模型进行RNA二级结构预测，这部分引入了双向GRU神经网络和注意力机制，充分利用RNA二级结构信息的同时，更加关注重点信息，获得预测的显著特征，再进行后续的预测任务，之后引入的两层dropout有效地避免了模型陷入过拟合。

在我们的神经网络算法中，先对数据集进行数据预处理，将序列中的碱基A、U、C、G用向量形式表示，同时，为序列中的每个碱基提供了一个标志向量，以便于处理包含不同长度RNA序列的数据集。将处理好的序列信息进行矩阵的拼接，将拼接好的特征矩阵输入到网络模型中，进行RNA二级结构的预测。通过注意力层对不同的特征实施不同的加权，使网络学习到更有效的RNA二级结构特征，在提取到有效的特征后，对不同尺度的特征进行融合，充分挖掘RNA二级结构的特征，进行RNA二级结构的预测。最后在计算每个基的损失函数时，可以自适应地调整每个基在损失函数中的比例，以避免模型陷入局部最优，使训练后的模型更好。

本发明选定了准确度、精确率、灵敏度、f1-score、马修斯相关系数五个特征作为RNA二级结构预测准确率的评价指标。在RNA二级结构的预测中，用TP表示正确预测碱基对的个数；FN表示真实结构中存在但没有被正确预测出的碱基对个数；FP表示真实结构中不存在却被错误预测到的碱基对个数；TN表示正确预测的不配对的碱基个数。具体计算公式为：

①准确度(Accuracy)：

②精确率(Precision)：

③灵敏度(Sensitivity)：

④F1系数(F1 Score)：

⑤马修斯相关系数(Matthews correlation coefficient)：

下面首先对本发明提供的基于双向GRU神经网络和注意力机制算法进行介绍。

通过对RNA STRAND中的五个数据集进行数据预处理，将其按同样的标准补齐为同一维度，对于每个样本的输入矩阵，不满足标准维度的用0补齐。将这些RNA二级结构数据集随机分为训练集和测试集，输入到本发明的网络中训练得到预测结果后，再去验证得到各项评价指标。

进一步地，所示本发明模型结构如图2所示，预测过程中，定义当前时刻为t，上一时刻为t-1，下一时刻为t+l；在双向GRU网络中每一时刻均设有更新门和重置门；重置门用于确定是否以一定的概率忘记上一层的隐藏层单元状态，更新门定义了保存到当前时间步长的上一状态的内存量。

所述的重置门和更新门的计算公式为：

r_t ^(f)＝σ(W_r ^(f)x_t+U_r ^(f)h_t-1 ^(f)+b_r ^(f)) (2)

z_t ^(f)＝σ(W_Z ^(f)x_t+U_Z ^(f)h_t-1 ^(f)+b_z ^(f)) (3)

其中，W_r ^(f)、W_z ^(f)、W_h ^(f)这几个超参数分别是神经元当前状态向量的输入权重，U_r ^(f)、U_z ^(f)、U_h ^(f)分别是隐藏状态向量的输入权重，b_r ^(f)、b_z ^(f)、b_h ^(f)代表各个状态的偏置项。

在经过以上计算后，将计算结果与偏置项和输入矩阵x_t相加，最后由一个非线性激活函数

激活，计算公式为：

在获得两个门的两个输出信号后，我们需要在计算h_t ^(f)时获得后遗忘状态r_t-l ^(f)，⊙其中表示与元素相乘运算相对应的哈达玛积。然后在这轮加权后，将其与偏置项和输入矩阵x_t相加，计算公式为：

对于反向GRU，也是一个类似的计算过程。

本发明的预测过程中，在将中间结果输入到注意力层之前，需要计算两个方向GRU的隐藏状态向量h_t ^(f)和h_t ^(b)，将这两个方向的隐藏层状态相加以获得该时刻对应的隐藏层状态h_t，表达式为：

h_t＝h_t ^(f)+h_t ^(b) (1)

本发明中，在双向GRU层之后，我们引入了注意力机制层，通过自适应加权数据来突出 RNA二级结构预测中的重要信息。计算公式为：

e_t＝tanh(w_t×h_t+b_t) (8)

其中，e_t表示由隐藏层状态向量h_t确定的能量向量值；u_w代表一个初始化后的注意力向量； w_t和b_t分别表示权重系数矩阵和偏置矩阵。

所述本发明中还设有Dropout层，将概率分配给具有伯努利分布的输入值，从而有效的克服过拟合的问题。同时，对数据集中的数据进行特征提取，分配相应权重累加求和，最后在softmax输出层分类，使用adam作为优化器，sgd(随机梯度下降法)作为我们的优化策略，使模型的训练和收敛得更快。

综上所述，本发明通过对RNA二级结构的数据集进行数据预处理，即将RNA二级结构的数据集中的序列信息进行向量化，得到矩阵形式表示的特征信息，并按标准的维度进行拼接，将不足标准的序列样本的特征信息用0进行填充，得到固定维度的特征矩阵，将特征矩阵输入到本发明的模型中进行RNA二级结构预测。本发明可以充分利用RNA二级结构前后碱基的信息，提高了RNA二级结构预测的准确率。进一步地，本发明相对于常规的递归神经网络模型，可以处理不同长度的RNA序列数据集。另外，本发明设置了一个权重向量去解决正负样本不平衡的问题。也就是说，在计算每个基的损失函数时，动态的调整每个基在损失函数中的占比，从而使模型避免陷入局部最优，增加模型的鲁棒性。

本发明的流程如图1所示，本发明提供的基于双向GRU神经网络和注意力机制算法可以包括如下步骤：

1.首先对RNA二级结构数据集进行数据预处理，将序列中的碱基用向量形式表示，再将矩阵进行拼接，得到标准化之后的特征矩阵。

2.设计适用于现有数据集的神经网络模型，以实现对RNA二级结构的预测，主要是特征提取网络，提取RNA二级结构的特征信息，以更好完成后续的对RNA二级结构预测的任务。其中的特征提取网络是对RNA二级结构进行特征学习。

3.通过计算RNA二级结构数据集的评价指标对网络性能进行评价，证明其预测的优越性。