CN110010194A

CN110010194A - 一种rna二级结构的预测方法

Info

Publication number: CN110010194A
Application number: CN201910285287.XA
Authority: CN
Inventors: 孙婷婷; 苏静杰
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-07-12

Abstract

本发明公开了一种RNA二级结构的预测方法，本发明通过对PDB数据集进行数据预处理，将其分为RNA一级序列数据集和RNA二级结构数据集；再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型，得到一个目标函数，并将RNA二级结构数据集作为机器学习模型的输出标签，对机器学习模型进行训练和测试；最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明采用监督学习算法，利用人工智能的方法对RNA二级结构进行预测，大大的提高了预测效率，并且预测结果较为准确。

Description

一种RNA二级结构的预测方法

技术领域

本发明涉及生物研究领域，特别涉及一种RNA二级结构的预测方法。

背景技术

核糖核苷酸分子RNA作为生物体内一种大分子，它是存在于生物体中重要的物质，不仅与脱氧核糖核苷酸分子DNA和蛋白质共同协作维持生物体的各项活动的进行，并且在DNA和蛋白质合成中扮演着重要的角色。研究发现，对RNA结构的研究能够帮助我们更加全面地了解RNA分子功能，这样就有利于生物研究学者探索RNA与DNA和蛋白质间的相互关系，从而了解生物体功能并且了解和治疗疾病。

RNA分子结构由三部分结构组成：一级序列、二级结构、三级空间结构。RNA三级空间结构是由二级结构单元之间的相互作用，扭曲、折叠等等在空间中形成的稳定结构，因此RNA二级结构的预测对于RNA结构来说起着重要的作用，如何有效地RNA二级结构成为生物信息学领域的重要研究问题之一。

传统地预测RNA二级结构的方法都是用实验物理、化学或计算机等方法预测其结构。但RNA分子本身具有晶体难以获得、分子降解速度快等特点，所以用实验物理、化学实验的方法预测其二级结构相对耗时长、成本高。而利用基于比较序列分析法和基于最小自由能法的计算机来预测这些空间结构，较传统方法虽然提高了预测的效率，但对于RNA一级序列基数较长的二级结构来说，其预测的时间和费用也远远增加。

发明内容

本发明的目的在于，提供一种RNA二级结构的预测方法。本发明可以对RNA二级结构进行预测，预测结果较为准确，预测效率大大提高。

本发明的技术方案：一种RNA二级结构的预测方法，将PDB数据集进行数据预处理，分为RNA一级序列数据集和RNA二级结构数据集；再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型，并将RNA二级结构数据集作为机器学习模型的输出标签，对机器学习模型进行训练和测试；最后利用训练和测试后的机器学习模型进行RNA二级结构预测。

上述的RNA二级结构的预测方法，所述对RNA一级序列进行计算机编码处理方法是用一个5bit正交的0/1编码方式来表示碱基类型中的一种，其中各碱基和二级制编码间的对应关系为：A-1000、C-0100、G-0010、U-0001。

前述的RNA二级结构的预测方法，所述编码后的RNA一级序列作为特征输入的方法是通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入，通过移动窗口的中心碱基的位置得到多个样本输入。

前述的RNA二级结构的预测方法，所述特征输入还包括远程RNA区域的分子间的碱基互补配对作用，即RNA一级序列中靠近5’端的碱基和靠近3’端的碱基根据碱基配对规则形成的RNA特有的特征向量，表示为RNA长程相关性。

前述的RNA二级结构的预测方法，所述RNA一级序列中的各个碱基记作1,2,3,...,n，根据碱基配对规则将每一个配对的碱基用i,j∈{1,2,3,L,n}来表示，记作i-j；

其中，碱基配对i-j必须满足：

(1)配对碱基i-j之间必须按照C-G、A-U或者G-U的规则来配对，它们之间分别由三个，两个或者一个氢键形成配对；

(2)每个碱基最多只能和另一个碱基配对，即i对应的j只有一个；

(3)在一条RNA序列链上，距离太近的碱基不允许配对，即对于i-j而言，j-i≥4；

(4)一个RNA二级结构中的两条配对碱基不能交叉配对，配对的k-l全在i-j里面或者全部在i-j外面，即如果i<j，k<l，i<k，则i<k<l<j或者i<j<k<1。

前述的RNA二级结构的预测方法，所述在RNA长程相关性中选取连续n条符合碱基配对规则的碱基对分别标记为1和2，其余未能配对的则标记为0作为特征向量输入至机器学习模型中。

前述的RNA二级结构的预测方法，所述n＝4-6。

与现有技术比较，本发明具有以下有益效果：

1、本发明通过对PDB数据集进行数据预处理，将其分为RNA一级序列数据集和RNA二级结构数据集；再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型，得到一个目标函数，并将RNA二级结构数据集作为机器学习模型的输出标签，对机器学习模型进行训练和测试；最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明采用监督学习算法，利用人工智能的方法对RNA二级结构进行预测，大大的提高了预测效率，并且预测结果较为准确。

2、本发明通过优化了RNA一级序列的编码方式，并将编码后的RNA一级序列作为特征输入至机器学习模型中，在特征输入的过程中选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入，通过移动窗口的中心碱基的位置得到多个样本输入，解决了RNA一级序列由于太长而难以输入机器学习模型的问题，大大的提高了RNA二级结构的预测效率。

3、本发明还在特征输入的过程中加入RNA长程相关性这一特征，并选取连续n条符合碱基配对规则的碱基对分别标记为1和2，其余未能配对的则标记为0作为特征向量输入至机器学习模型中，由于RNA长程相关性中含有RNA真实的生物信息结构，并通过调整n的数值，从而进一步提高了RNA二级结构预测的精确率。

附图说明：

图1是本发明从PDB数据中查询的其中一个RNA信息’2JTP.pdb’中的部分示例；

图2是本发明’2JTP.pdb’对应得到的二级结构；

图3是本发明实施例1中RNA二级结构预测精确度柱形图；

图4是本发明实施例1中RNA二级结构预测召回率柱形图；

图5是本发明的1A9L.pdb中的RNA长程相关性的特征向量示意图；

图6是本发明实施例2中RNA二级结构预测精确度柱形图；

图7是本发明实施例2中RNA二级结构预测召回率柱形图；

图8是本发明实施例3中调整窗口数和RNA长程相关性中的碱基对数来测试RNA二级结构的总体预测精度的结果示意图；

图9是本发明的“1A9L.pdb”的RNA二级结构图；

图10是本发明在没有RNA长程相关性中的碱基配对这一特征的RNA二级结构预测示意图；

图11是本发明添加RNA长程相关性中的碱基配对这一特征的RNA二级结构预测示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例1：一种RNA二级结构的预测方法：从PDB数据库官网下载得到PDB数据集，如图1所示为下载得到的PDB数据中其中一个RNA信息’2JTP.pdb’中的部分示例，PDB数据库中包含有RNA序列信息、RNA的一级序列和三维空间坐标三个部分，图中可以看出’SEQRES’中就记录着RNA的一级序列，先对PDB数据集进行数据预处理，通过正则表达式的方式将一级序列提取出来，其中有部分数据是有除A、C、G、U的其他字符的，这时需要清洗掉这些字符得到正确的RNA一级序列。用已知的RNA二级结构预测软件RNAview通过在Linux系统下批量预测出每一个一级序列对应的RNA二级结构，并将维度过高的RNA三级结构剔除，只留下二级结构和部分假结结构。’2JTP.pdb’对应得到的二级结构如图2所示，’+/+’代表双键稳定的碱基对，’-/-’代表单键易断的碱基对，最右边一列希腊数字对应’+/+’或’-/-’等等。数据预处理后将分为RNA一级序列数据集和RNA二级结构数据集，再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，在用一个5bit正交的0/1编码方式来表示碱基类型中的一种，其中各碱基和二级制编码间的对应关系为：A-1000、C-0100、G-0010、U-0001。通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入至基于监督学习算法建立的机器学习模型中，通过移动窗口的中心碱基的位置得到多个样本输入。RNA二级结构数据集作为机器学习模型的输出标签是采用E-NSSEL(Extend New SecondaryStructure Element Label)二级结构表示方法将RNA二级结构细分为五类结构单元，对应配对的和没配对的以及假结中的每个结构单元，分别用从1到5的数字给定一个E-NSSEL标识。如表1所示，从1到3的数字区分不含假结中的普通茎区结构(+/-Stem)和未配对的碱基(loop)，并且用1到5的数字来标记含有假结中的相关假结结构(+/-pseudoknots)、普通茎区结构(+/-Stem)和未配对的碱基(loop)：

表1

所述机器学习模型的建模方式选用python扩展库中scikit-learn包中的SVM包直接建模，选用高斯核函数：K(x,z)＝exp(-γ||x-z||²)来作为空间映射函数，C和gamma作为模型参数。本发明RNA二级结构预测准确率的度量标准是支持向量机模型中的精确率precision，召回率recall，以及两者之间的权重比例系数f1-score。在RNA二级结构预测中，用TP表示正确预测碱基对的个数；FN表示真实结构中存在但没有被正确预测出的碱基对个数；FP表示真实结构中不存在却被错误预测到的碱基对个数；TN表示正确预测的不配对的碱基个数。具体计算公式为：

f₁为当β＝1时的值：此时准确率和召回率一样重要。

通过对PBD数据集进行数据预处理最终得到无假结的282条RNA一级序列和具有假结的37条RNA基因序列。首先对282条无假结结构的PDB数据进行预测分析，这282条无假结结构的PDB数据一共包含有7175个碱基。将这些PDB数据的7175个碱基分为7:3的训练集和验证集。用5022个碱基进行训练预测出结果，再用2153个碱基做验证得到精确率和召回率。支持向量机模型选用RBF核函数，通过网格搜索的方式，得到参数c＝5000，gamma＝0.0001为最佳参数。最后利用训练和测试后的机器学习模型进行RNA二级结构预测。

本发明采用支持向量机(SVM)、随机森林(Random Forest)、k邻近(K-Neighbors)三种机器监督学习算法对RNA二级结构进行预测，以及它们对表1中SSE标签1、SSE标签3、SSE标签5的预测结果对比分析。其三种算法下的RNA二级结构预测精确度如图3所示，RNA二级结构预测召回率如图4所示。从图3和图4中可以看出图中实验数据表明用随机森林方法预测和支持向量机算法预测效率比k邻近方法预测较好，并且RNA二级结构的平均预测准确率在78％以上，平均预测召回率在75％以上，预测结果较为准确，预测效率大大提高。

实施例2：一种RNA二级结构的预测方法：从PDB数据库官网下载得到PDB数据集，先对PDB数据集进行数据预处理，通过正则表达式的方式将一级序列提取出来，其中有部分数据是有除A、C、G、U的其他字符的，这时需要清洗掉这些字符得到正确的RNA一级序列。用已知的RNA二级结构预测软件RNAview通过在Linux系统下批量预测出每一个一级序列对应的RNA二级结构，并将维度过高的RNA三级结构剔除，只留下二级结构和部分假结结构。数据预处理后将PDB数据集分为RNA一级序列数据集和RNA二级结构数据集，再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，在用一个5bit正交的0/1编码方式来表示碱基类型中的一种，其中各碱基和二级制编码间的对应关系为：A-1000、C-0100、G-0010、U-0001。通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入至基于监督学习算法建立的机器学习模型中，通过移动窗口的中心碱基的位置得到多个样本输入。所述特征输入还包括远程RNA区域的分子内相互补充作用，即RNA一级序列中靠近5’端的碱基和靠近3’端的碱基根据碱基配对规则形成的RNA特有的特征向量，表示为RNA长程相关性。所述RNA一级序列中的各个碱基记作1,2,3,...,n，根据碱基配对规则将每一个配对的碱基用i,j∈{1,2,3,L,n}来表示，记作i-j；

其中，碱基配对i-j必须满足：

在RNA长程相关性中选取连续4条符合碱基配对规则的碱基对分别标记为1和2，其余未能配对的则标记为0作为特征向量输入至机器学习模型中。如图5所示为1A9L.pdb中的RNA长程相关性的特征向量。

在加上RNA长程相关性这一特征的情况下，采用支持向量机(SVM)、随机森林(Random Forest)、k邻近(K-Neighbors)三种机器监督学习算法对RNA二级结构进行预测，以及它们对表1中SSE标签1、SSE标签3、SSE标签5的预测结果对比分析，其三种算法下的RNA二级结构预测精确度如图6所示，RNA二级结构预测召回率如图7所示。从图6和图7中可以看出采用RAN长程相关性作为特征输入只机器学习模型中，其RNA二级结构的平均预测准确率在85％以上，平均预测召回率在80％以上，相对于实施例1来说，其三种算法的预测准确性都大大的提高，而且预测效率进一步地加快。

实施例3：一种RNA二级结构的预测方法，按实施例2的操作步骤进行RNA二级结构的预测，但在将编码后的RNA一级序列作为特征输入至机器学习模型中时，调整窗口数和RNA长程相关性中的碱基对数来测试RNA二级结构的总体预测精度。本实施例中单独使用SVM分类器进行，采用定量分析的方法来确定最适合RNA二级结构预测，其测试结果如图8所示。从图8可以看出，在没有RNA长程相关性中的碱基配对情况时，即base pair＝0时，其窗口数量越多，总体预测精度最高可以达80％，这是因为RNA二级结构中碱基之间的关系变大，其窗口数量越大，预测精度越高。

在加入RNA长程相关性这一特征向量后，在碱基对数等于3-5之间，其RNA二级结构预测的准确性明显较没有RNA长程相关性中的碱基配对情况时有很大的提高，当碱基配对数为4时，SVM分类器的性能达到峰值，最大精度可达82％。因此，本发明采用RNA长程相关性作为新的特征可以提高机器学习模型对RNA二级结构的预测准确性。

取1A9L.pdb”RNA一级序列进行结构预测，其“1A9L.pdb”RNA一级序列为GGGUGACUCCAGAGGUCGAGAGACCGGAGAUAUCACCC，RNA二级结构如图9所示。在没有RNA长程相关性中的碱基配对这一特征的RNA二级结构预测如图10所示。添加RNA长程相关性中的碱基配对这一特征的RNA二级结构预测如图11所示。图10-图11未预测出来的RNA二级结构用虚线标出，从图9-图11中可以看出相对较长一点的RNA一级序列中，序列靠5’端和靠3’端的碱基在加入RNA长程相关性这一特征向量后其预测精度比未加入特征向量时提高了许多。

在进行RNA二级结构预测后，采用支持向量机方法在PDB数据集中对无假结的282个RNA一级序列和在具有假结的37个RNA基因序列进行比对。其中碱基对的个数n＝4，支持向量机模型核函数选用RBF核函数，参数c＝5000，gamma＝0.0001，其中无假结的RNA二级结构的预测结果如表2中所示，有假结的RNA二级结构的预测结果如表3所示。从表2和表3中可以看出，实施例2中的预测准确率相对于实施例1来说更进一步地提升了预测的准确率。

表2

表3

综上所述，本发明通过对PDB数据集进行数据预处理，将其分为RNA一级序列数据集和RNA二级结构数据集；再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型，得到一个目标函数，并将RNA二级结构数据集作为机器学习模型的输出标签，对机器学习模型进行训练和测试；最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明采用监督学习算法，利用人工智能的方法对RNA二级结构进行预测，大大的提高了预测效率，并且预测结果较为准确。本发明还在特征输入的过程中加入RNA长程相关性这一特征，并选取连续n条符合碱基配对规则的碱基对分别标记为1和2，其余未能配对的则标记为0作为特征向量输入至机器学习模型中，由于RNA长程相关性中含有RNA真实的生物信息结构，并通过调整n的数值，从而进一步提高了RNA二级结构预测的精确率。

Claims

1.一种RNA二级结构的预测方法，其特征在于：将PDB数据集进行数据预处理，分为RNA一级序列数据集和RNA二级结构数据集；再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型中，并将RNA二级结构数据集作为机器学习模型的输出标签，对机器学习模型进行训练和测试；最后利用训练和测试后的机器学习模型进行RNA二级结构预测。

2.根据权利要求1所述的RNA二级结构的预测方法，其特征在于：所述对RNA一级序列进行计算机编码处理方法是用一个5bit正交的0/1编码方式来表示碱基类型中的一种，其中各碱基和二级制编码间的对应关系为：A-1000、C-0100、G-0010、U-0001。

3.根据权利要求2所述的RNA二级结构的预测方法，其特征在于：所述编码后的RNA一级序列作为特征输入的方法是通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入，通过移动窗口的中心碱基的位置得到多个样本输入。

4.根据权利要求1所述的RNA二级结构的预测方法，其特征在于：所述的监督学习算法是随机森林算法或支持向量机算法。

5.根据权利要求1所述的RNA二级结构的预测方法，其特征在于：所述特征输入还包括远程RNA区域的分子之间存在的碱基互补配对作用，即RNA一级序列中靠近5’端的碱基和靠近3’端的碱基根据碱基配对规则形成的RNA特有的特征向量，表示为RNA长程相关性。

6.根据权利要求5所述的RAN二级结构的预测方法，其特征在于：所述RNA一级序列中的各个碱基记作1,2,3,...,n，根据碱基配对规则将每一个配对的碱基用i,j∈{1,2,3,L,n}来表示，记作i-j；

其中，碱基配对i-j必须满足：

7.根据权利要求5所述的RNA二级结构的预测方法，其特征在于：所述在RNA长程相关性中选取连续n条符合碱基配对规则的碱基对分别标记为1和2，其余未能配对的则标记为0作为特征向量输入至机器学习模型中。

8.根据权利要求7所述的RNA二级结构的预测方法，其特征在于：所述n＝3-5。