CN104765983A

CN104765983A - 基于半扩展结构的核糖核酸假结结构的预测方法与装置

Info

Publication number: CN104765983A
Application number: CN201510057278.7A
Authority: CN
Inventors: 刘振栋; 魏东; 倪明晖; 李恒武; 刘芳含; 陶思颖; 李跃军; 叶红朝; 雷红民
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2015-07-08

Abstract

本发明提供一种基于半扩展结构的核糖核酸假结结构的预测方法及装置，包括以下步骤：输入一段核糖核酸碱基序列；定义半扩展结构；建立包含k茎和半扩展结构的核糖核酸假结结构表示模型和相应的最小能量的计算公式；根据最小能量原理，输出核糖核酸碱基序列的假结结构。本发明的方法的搜索速度、正确率、敏感性和特异性都优于PKNOTS等算法。因此本发明的方法在假结结构的预测方面比PKNOTS算法更有效。

Description

基于半扩展结构的核糖核酸假结结构的预测方法与装置

技术领域

本发明属于生物信息工程领域，涉及一种对核糖核酸(以下简称为RNA)的结构进行预测的方法，尤其涉及基于半扩展结构的RNA假结结构预测的方法及装置。

背景技术

RNA是生物系统内最为重要的生物大分子之一，它在生物体内行使多种功能，是合成蛋白质的模板。RNA二级结构预测用于蛋白质功能分析，是RNA三级结构预测的基础。假结(pseudoknot)是RNA中最广泛的结构单元，是非常复杂和稳定的RNA结构，假结在RNA分子中具有构造、催化和调节功能，假结结构是目前RNA结构预测研究的关键点。

RNA二级结构预测采用的方法主要有两种：早期采用的是序列对比分析方法，即对于在不同有机体中起相同生物功能的一级结构进行比较，此方法的困难之处在于：许多RNA分子的同源序列不易得到；需要大量人力，效率较低，所以目前主要采用的是最小自由能量方法。

最小自由能量算法的理论依据是稳定的二级结构的自由能量最小。基于最小自由能量算法的PKNOTS算法使用O(n⁶)时间和O(n⁴)空间计算任意的平面假结和部分非平面假结。PKNOTS算法仅能计算长度短于140个碱基的RNA序列，不能满足较长序列结构预测的需要。PknotsRG算法计算两个茎区构成的简单的嵌套假结，其中任意两个假结为并列或嵌套关系。事实上，由内环和凸起构成的假结在RNA中普遍存在，交叉假结也具有重要作用。因此，两者都不能被忽略。平面假结是最广泛的假结子类，包含上面提到的由内环和凸起构成的假结以及交叉假结的情况。PseudoBase数据库的所有序列中仅一个序列折叠为一个非平面假结，其余序列都折叠为平面假结。因此我们主要考虑任意平面假结的计算。

Zuker首次将动态规划算法用于最邻近邻居模型提出MFOLD算法，经过二十多年的不断改进和发展，现己成为国际上最广泛使用的RNA二级结构预测方法，对于包含n个核苷酸的RNA序列，MFOLD算法使用O(n³)时间和O(n²)空间预测最优二级结构，目前对于长度小于700个核普酸的RNA序列，MFOLD算法可正确预测大约73％的基对，对于较长的RNA序列及部分子类的预测正确率更低，仅仅给出了三级结构的粗略框架，另外由于算法本身的限制，MFOLD算法不能预测假结和更复杂的三级相互作用。

发明内容

本发明解决的技术问题是使得对RNA结构、尤其是使基于半扩展结构RNA假结结构进行预测，降低其时间复杂性和空间复杂性，提高预测准确性。

本发明的一种基于半扩展结构的核糖核酸假结结构的预测方法包括以下步骤：

输入一段核糖核酸碱基序列；

定义k茎、半扩展结构；

建立包含k茎和半扩展结构的核糖核酸假结结构表示模型和相应的最小能量的计算式；

根据最小能量原理，输出核糖核酸的二级结构。

一个半扩展结构由两个核糖核酸序列片断s_i,k和s_l,j构成，i<k<l<j。两个核糖核酸序列片断中存在p和q，i<p<q<k，使s_p,q和s_l,j构成k茎，用F[i,k:j]表示其最优半扩展结构。或两个核糖核酸序列片断中存在p和q，l<p<q<j，使s_p,q和s_i,k构成k茎，F[i:l,j]为其最优半扩展结构。

以W(i,j)为子序列s_i,j对应的包含假结的二级结构S的最小自由能量，计算W(i,j)的情况包括：(1)s_i和s_j是未配对碱基；s_i和s_j不构成基对(i,j)且在不同子序列s_i,k和s_k+1,j对应的二级结构中，i<k<j；(2)s_i和s_j构成基对(i,j)；s_i,j由两个半扩展结构和一个子序列构成；或s_i,j由一个半扩展结构和一个子序列构成。

V(i,j)为在碱基s_i和s_j构成基对(i,j)时，子序列s_i,j对应的包含假结的二级结构S的最小能量，计算V(i,j)情况包括：S是由基对(i,j)封闭的1环，S是由基对(i,j)和(k,l)封闭的2环，S是k环(k≥3)或者假结结构，i<k<j。

计算一个半扩展结构的情况包括：(1)一个半扩展结构由另一个半扩展结构和一个未配对碱基构成；(2)一个半扩展结构由另一个半扩展结构和一个子序列构成；(3)一个半扩展结构由另外的两个半扩展结构构成；(4)一个半扩展结构是一个k茎。

使用动态规划算法计算W(i,j)、V(i,j)和RNA半扩展结构的最小能量。

一种基于半扩展结构的核糖核酸假结结构预测装置包括：

输入单元，输入一段核糖核酸序列；

初始化单元，定义k茎和半扩展结构；

存储单元，存储建立包含k茎和半扩展结构的核糖核酸假结结构表示模型及其相应的最小能量的计算公式；

输出单元，其根据最小能量原理，输出核糖核酸的假结结构。

本发明方法的搜索速度、正确率、敏感性和特异性都比PKNOTS算法好，因此本发明的方法在平面假结的预测上比PKNOTS算法更有效。

附图说明

图1是根据本发明的用于预测RNA假结结构的预测方法的流程图。

图2是根据本发明的k茎处理的流程图；

图3是根据本发明的半扩展结构处理的流程图；

图4是参照图1用于预测RNA的假结结构的预测装置；

图5是本发明的有关RNA假结结构的例子；

图6是本发明的包含假结结构的RNA中V(i,j)与W(i,j)最小自由能量的表示；

图7是本发明的包含假结结构的RNA的半扩展结构的表示。

具体实施方式

首先说明关于RNA序列、碱基对、假结等的概念。

RNA一级结构：RNA序列侧链上四种碱基的排列顺序表示。一般来说RNA序列从5′到3′结束，这样整个序列s表示为s＝s₁s₂…s_n，s_i是RNA序列的第i个碱基，s_i∈{A,U,G,C}，RNA子序列s_i,j是s的一个序列片段，表示为：s_i,j＝s_i…s_j。

碱基对：如果s_i·s_j∈{AU,CG,GU},则s_i·s_j构成碱基对。碱基对堆积的能量为负值。

RNA二级结构：RNA序列中的一组基对构成的集合构成RNA二级结构，以S表示。对于任意基对，如果s_i·s_j∈S、s_i′·s_j′∈S且i＝i′，则j＝j′，亦即，一个基不可同时与两个及两个以上的基构成基对。

图1是根据本发明的用于预测RNA的二级结构的预测方法的流程图。本发明的方法包括以下步骤：输入一段核糖核酸碱基序列；定义半扩展结构；建立包含k茎和半扩展结构的核糖核酸假结结构表示模型并计算出模型的最小能量；根据最小能量原理，输出核糖核酸的二级结构。图4是与图1是用于预测RNA的假结结构的预测装置。RNA假结结构的预测装置包括：输入单元，其输入一段核糖核酸碱基序列；初始化单元，其定义k茎和半扩展结构；存储单元，其存储建立的包含k茎和半扩展结构的核糖核酸假结结构表示模型和相应的最小能量的计算式；输出单元，其根据最小能量原理，输出核糖核酸碱基序列的二级结构。

图2是根据本发明的k茎处理的流程图：输入一段s＝s₁s₂…s_n序列，从左向右查找碱基，如果存在i、j，使得s_i和s_j配对，j-i≥6，并且s中存在三个以上连续的相邻基对s_i·s_j、s_(i+1)·s_{(j-1)。。。、}s_k·s_l，则基对s_i·s_j和s_k·s_l封闭的区间确定为1茎；对1茎中所有配对的碱基进行标记；在1茎封闭的游离碱基中继续查找配对的碱基，如果存在三个以上基对，确定为2茎；对2茎中所有配对的碱基进行标记；在1茎和2茎封闭的游离碱基中继续查找配对的碱基，如果存在三个以上基对，确定为3茎；对3茎中所有配对的碱基进行标记......直到查找到k茎。如果存在两个以上k茎碱基对的交叉，则构成假结。图3是根据本发明的半扩展结构处理的流程图。k茎确定后，包含k茎和游离碱基的一段序列，确定为半扩展结构，

定义1：RNA子序列S_i,j中，如果(i,j),(i+1,j-1),…，(k,l)都是基对，i<k<l<j，则由(i,j)和(k,l)∈S所封闭的结构称为1茎，表示为S₁[i,j]。若1茎S₁[i,j]由(i,j)和(r,s)∈S所封闭，1茎S₁[r’,s’]由(r’,s’)和(k,l)∈S所封闭，i<r<r’<k<l<s’<s<j，v＝r’–r+s-s’>2，则由(i,j)和(k,l)∈S所封闭的结构称为2茎,表示为S₂[i,j]。

同理，如果S₁[i,j]由(i,j)和(r,s)∈S所封闭，(k-1)茎由(r’,s’)和(k,l)∈S所封闭，i<r<r’<k<l<s’<s<j，v＝r’–r+s-s’>2，则由(i,j)和(k,l)∈S所封闭的结构称为k茎,表示为S_k[i,j]，S_k[i,j]的最小能量表示为ES_k(i,j)，k茎S_k[i,j]的长度表示为LS_k(i,j)＝k-i+1或RS_k(i,j)＝j-l+1。

设2茎S₂[i,j]由两个嵌套的1茎和其内部未配对碱基构成。设E₂(r,r’:s’,s)表示基对(r,s)和(r’,s’)构成的2环结构的能量，ES₁(i,j)和ES₁(r’,s’)分别表示由基对(i,j)和(r’,s’)封闭的1茎的能量，则ES₂(i,j)＝ES₁(i,j)+E₂(r,r’:s’,s)+ES₁(r’,s’)。同理ES_k(i,j)＝ES₁(i,j)+E₂(r,r’:s’,s)+ES_k-1(r’,s’)。

设LS(i,j)∈{LS₁(i,j),LS₂(i,j)},ES(i,j)∈{ES₁(i,j),ES₂(i,j)}。在本发明的方法中，1茎和2茎的自由能量和长度使用O(n³)的时间预处理并分别存于三角矩阵ES(i,j)、LS(i,j)中，其计算过程见程序1。

同理，由ES_k(i,j)的计算公式可知，计算k茎的时间复杂度为O(n³)，空间复杂度为O(n²)。k茎(k≥3)的计算由后面的动态规划算法实现。

定义2:一个半扩展结构由满足条件(1)或(2)的两个RNA序列片断s_i,k和s_l,j构成，i<k<l<j。

(1)存在p和q，i<p<q<k，使s_p,q和s_l,j构成k茎。设F[i,k:j]表示其最优半扩展结构，EF(i,k:j)表示F[i,k:j]的最小能量，相应地，LF(i,k:j)＝j-l+1表示F[i,k:j]的长度，用M F(i,k:j)＝k-i+1表示半扩展结构的度。

(2)存在p和q，l<p<q<j，使s_p,q和s_i,k构成k茎。设F[i:l,j]表示其最优半扩展结构，EF(i:l,j)表示F[i:l,j]的最小能量，相应地，用LF(i:l,j)＝k-i+1表示F[i:l,j]的长度，用M F(i:lj)＝j-l+1表示半扩展结构的界。

由(1)和(2)知：M F＝Max(k-i+1,j-l+1)

一旦半扩展结构F[i:l,j]确定，LF(i:l,j)也唯一确定。因此LF(i:l,j)使用O(n³)空间唯一存储F[i:l,j]；同样地，LF(i,k:j)使用O(n³)空间唯一存储F[i,k:j]。

RNA结构中，针对k茎，若k＝1或k＝2时，其对应的1茎和2茎的程序计算如下：

程序1：在RNA结构中，计算1茎和2茎的能量和长度/*设(i,j)表示碱基s_i和s_j构成的基对，g表示RNA假结结构中k环的惩罚系数。P’表示假结中一个基对的惩罚值，Q’表示假结中一个未配对碱基的惩罚值。*/

图4给出一个简单的假结。使用两个1茎(S₁[1,19]、S₁[7,30])和三个子序列(s_6,6、s_13,14、s_20,24)构成一个假结。由于每个1茎由两个参数确定，1茎的存储需要O(n²)空间，因此计算假结的时间复杂度为O(n⁴)，空间复杂度为O(n²)。

由图5知：W(1,30)＝ES1(1,19)+ES1(7,30)+W(6,6)+W(13,14)+W(20,24)

因此该假结结构可分解为两个交叉的半扩展结构和一个子序列。一个半扩展结构又可以分解为k茎和多分枝环，因此假结可以递归地表示。半扩展结构本身可包含假结，两个半扩展结构的交叉又构成假结结构，这样扩展后的算法可以包含交叉假结。

引入半扩展结构和k茎模型，利用k茎计算半扩展结构，使用半扩展结构的交叉计算嵌套和交叉假结，建立新的RNA假结表示模型。基于新的假结表示模型，设计和实现动态规划算法，预测包含任意平面假结的RNA结构。

利用PknotsRG算法不能预测交叉假结，只能预测由两个1茎构成的简单假结，我们可利用扩展的PknotsRG算法来预测任意的平面假结。由两个半扩展结构和一个子序列或由一个半扩展结构和一个子序列构成的假结结构的计算增加到MFOLD计算模型中构成平面假结计算模型，图2和图3给出基本模型的图解表示。

给定一个序列s＝s₁s₂…s_n，序列片段s_i,j＝s_i…s_j，1＜i＜j＜n。设 W(i,j)是子序列s_i,j对应的包含假结的二级结构S的最小能量。设V(i,j)是s_i和s_j构成基对(i,j)的情况下，子序列s_i,j对应的包含假结的二级结构S的最小能量。

图6给出W(i,j)和V(i,j)的计算图式。包含假结结构的W(i,j)由下列六种情况计算：

1)s_i是未配对碱基,如图6.1；

2)s_j是未配对碱基,如图6.2；

3)s_i和s_j不构成基对(i,j)且在不同子序列s_i,k和s_k+1,j对应的二级结构中，i<k<j,如图6.3；

4)s_i和s_j构成基对(i,j),如图6.4；

5)s_i,j由两个半扩展结构和一个子序列构成，如图6.5中,s_i,j由半扩展结构F[i,k:l]、F[k+1:l+1,j]和子序列s_{k+1+LF(k:l,j),l-LF(i,k:l)-1}构成，图6.8中s_i,j由F[i:k,l]、F[i+LF(i:k,l),k-1:j]和子序列s_{l+1,j-LF(i+LF(i:k,l),k-1:j)-1}构成，图6.9中s_i,j由F[k,l:j]、F[i:l+1,j-LF(k,l:j)-1]和s_{i+LF(i:l+1,j-LF(k,l:j)-1),k-1}构成；

6)s_i,j由一个半扩展结构和一个子序列构成，如图6.6中s_i,j由F[i:l,j]和s_{i+LF(i:l,j),l-1}构成，图6.7中s_i,j由F[i,k:j]和s_{k+1,j-LF(i:k,j)-1}构成。

V(i,j)由下列三种情况计算:

1)S是由基对(i,j)封闭的1环，如图6.10。

2)S是由基对(i,j)和(k,l)封闭的2环，如图6.11。

3)S是由基对(i,j),(i+1,k-1)和(k,j-1)封闭的3环或延伸为k环，i<k<j，如图6.12。

图6.5,6.8,6.9和6.12用于计算假结和k环结构的最小自由能量。使用公式1计算图6，Gw表示构成一个假结的惩罚值，M表示构成一个多分枝环的惩罚值，P表示多分枝环中每一基对的惩罚值，U是常数，由实验测定。W_M和W的计算公式相同，但参数不同，W_M专门用于多分枝环内序列片断的结构预测，而W仅用于无外部封闭基对序列片断的结构预测。

由于F[i,k:j]中的子序列s_i,p-1和s_q+1,k(i<p<q<k)或F[i:l,j]中的子序列s_l,p-1和s_q+1,j(l<p<q<j)可以包含嵌套假结，或者相互构成交叉假结，假结的嵌套和交叉构成复杂的多假结结构，因此半扩展结构的计算很复杂，仅考虑平面假结的计算。图7给出F(i,k:j)的计算图式。F[i:l,j]的计算图式可类似给出。

图7是本发明的RNA的半扩展结构的表示。一个半扩展结构可由下列4种情况计算：

1)一个半扩展结构是一个k茎的扩展或2环，如图7.1中，F[i:l,j]＝S_1[i,j]，或者F[i:l,j]＝S_2[i,j]，或者F[i:l,j]为由(i,j)和(k,l)封闭的2环，i<k<l<j。

2)一个半扩展结构由另一个半扩展结构和一个子序列构成，如图3.2中F[i:l,j]由F[i:q,j]和s_l,q-1构成，图7.3中F[i:l,j]由F[i:l,q]和s_q+1,j构成。

3)一个半扩展结构由另外的两个半扩展结构构成，如图7.4中 F[i:l,j]由F[l,q:j]和F[i:q+1,j-LF(l,q:j)]构成，图7.5中F[i:l,j]由F[l:q,j]和F[i:l+LF(l:q,j),q-1]构成，图7.6中如果(i+LF(i:q,j)-1,q)∈S,F[i:l,j]由F[i:q,j]和F[i+LF(i:q,j)-1:l,q]构成，图7.7中F[i:l,j]由F[i:q,j]和F[i+LF(i:q,j):l,q-1]构成。

4)一个半扩展结构由另一个半扩展结构和一个未配对碱基构成，如图7.8中，F[i:l,j]由F[i+1:l,j]和碱基s_i构成。

在模型中,用公式2计算图7。Gwh表示产生多假结的惩罚值，Q’表示假结中一个未配对碱基的惩罚值。ES(i,j)表示由基对(i,j)封闭的1茎的能量值，E₂(i,k:l,j)表示由基对(i,j)和基对(k,l)封闭的2环的能量值。

公式1：

V (i, j) = \min \begin{matrix} \{\begin{matrix} E_{1} (i, j) \\ mi                           n (E_{2} (i, k : l, j) + V (k, l)}, i < k < l < j, u = (k - i + j - l - 2 < U) \\ \min_{i < h < j - 1} {W_{M} (i + 1, h) + W_{M} (h + 1, j - 1) + M + P} \end{matrix} \end{matrix}

W (i, j) = \min \{\begin{matrix} V (i, j), W (i + 1, j), W (i, j - 1) \min_{i < k < j - 1} (W (i, k) + W (k + 1, j)) \\ \min_{i \leq k < l < j} (EF (i, k : l) + EF (k + 1 : l + 1, j) + W_{M} (k + 1 + LF (k + 1 : l + 1, j), l - LF (i : k, l)) + G_{w}) \\ \min_{i + 1 \leq l \leq j} (EF (i : l, j) + W_{M} (i + LF (i : l, j), l - 1)), \min_{i < k < j - 1} (EF (i, k : j) + W_{M} (k + 1, j - LF (i : k, j))) \\ \min_{i < k \leq l < j} (EF (i : k, l) + EF (i + LF (i : k, l), k - 1 : j) + W_{M} (l + 1, j - LF (i - LF (i : k, l), k - 1 : j)) + G_{w}) \\ \min_{i < k \leq l < j} (EF (i : l + 1, j - LF (k, l : j)) + EF (k, l : j) + W_{M} (i + LF (i : l + 1, j - LF (k : l, j)), k - 1) + G_{w}) \end{matrix}

公式2：

EF (i : l, j) = \underset{l < q < j}{m in} \{\begin{matrix} ES (i, j) or E_{2} (i, k : l, j), i < k < l < j \\ EF (i : q, j) + W_{M} (l, q - 1) \\ EF (i : l, q) + W_{M} (q + 1, j) \\ EF (l, q : j) + EF (i : q + 1, j - LF (l, q : j)) + G_{wh} \\ EF (l : q, j) + EF (i : l + LF (l : q, j), q - 1) + G_{wh} \\ EF (i : q, j) + EF (i + LF (i : q, j) - 1 : l, q) \\ EF (i + LF (i : q, j) : q - 1) + EF (i : q, j) \\ EF (i + 1 : l, j) + Q^{'} \end{matrix}

本发明的方法与PKNOTS算法的实验比较

我们用VC++编程实现本发明的方法，并与PKNOTS算法进行比较。在此基础上，优化能量参数，对PseudoBase数据库的所有序列进行计算。PknotsRG算法和LP算法只能预测部分平面假结，PKNOTS算法是目前预测任意平面假结和部分非平面假结的最好算法。因此本发明的方法的测试结果主要与PKNOTS算法进行比较。首先对PKNOTS算法的测试集合进行计算，使用的能量参数与PKNOTS算法相同，但引入更多的同轴堆叠，其计算结果如下。

表1本发明的方法与PKNOTS算法的计算时间比较

表2本发明的方法与PKNOTS算法的不同结果的比较

本发明的方法和PKNOTS算法的计算时间的比较见表1。本发明的方法使用内存为6MB的PC机进行测试，而PKNOTS算法使用内存为4GB的高性能计算机Silicon Graphics Origin200进行测试。从表1可知，计算长度为75个碱基的RNA序列，本发明的方法使用42秒，而PKNOTS算法使用20分钟。计算长度为105个碱基的RNA序列，本发明的方法使用193秒，而PKNOTS算法使用235分钟。计算长度为200个碱基的RNA序列，本发明的方法使用56分钟，而PKNOTS算法不能计算。事实上，本发明的方法可以成功预测长度为1000个以上碱基的RNA序列的二级结构。

由于本发明的方法基于半扩展结构进行计算，并且引入更多的同轴堆叠，特别是假结的同轴堆叠，使本发明的方法有利于形成完整的茎区和正确的假结结构。

在使用相同的能量参数下，本发明的方法对于预测结果不同的15个序列的敏感性和特异性的比较结果见表2，本发明的方法的平均敏感性为88.1％，好于PKNOTS算法的71.7％；本发明的方法的平均特异性为86.3％，好于PKNOTS算法的70.6％。

因此测试结果表明，本发明的方法的搜索速度、平均敏感性和平均特异性都明显好于PKNOTS算法。

PseudoBase国际RNA数据库的测试结果

PseudoBase是一个RNA假结数据库。本发明的方法测试了PseudoBase数据库的全部245个序列，预测了189个序列包含假结，预测正确假结的序列为162个，正确率为85.7％；

引入半扩展结构和k茎建立新的RNA假结表示模型。基于该模型提出一个时间复杂度为O(n⁴)和空间复杂度为O(n³)的动态规划方法，预测包含任意平面假结和简单的非平面假结的RNA二级结构。

PKNOTS算法使用时间复杂度为O(n⁶)和空间复杂度为O(n⁴)，来计算包含平面假结和部分非平面假结的二级结构，计算的假结由不超过两个缺口结构表示。本发明的方法计算的序列长度短于140个碱基。本发明的方法使用时间复杂度为O(n⁴)和空间复杂度为O(n³)计算假结，假结由不超过两个半扩展结构表示，计算的RNA序列长度可超过100个碱基。从测试结果可知，本发明的方法的搜索速度、正确率、敏感性和特异性都比PKNOTS算法好。因此本发明的方法在平面假结的预测上比PKNOTS算法更有效。

PknotsRG算法使用O(n⁴)时间和O(n²)空间计算简单的嵌套假结，每一个假结由两个1茎的交叉构成，两个假结只能嵌套或并列，但是PknotsRG算法不能计算由k茎(k>1)构成的假结。PknotsRG算法不能计算由多分枝环构成的假结和交叉假结。

本发明的方法可计算由内环、凸起和多分枝环构成的嵌套假结和交叉假结，而时间复杂度与PknotsRG算法相同，这是与PknotsRG算法的不同之处。因此本发明的方法相比PknotsRG算法可计算更复杂的嵌套和交叉假结。对PseudoBase数据库的测试表明，PknotsRG算法的假结预测正确率为68％，而本发明的方法的假结预测正确率为 76.5％，因此本本发明的方法比PknotsRG算法具有更好的假结预测正确率。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于半扩展结构的核糖核酸假结结构的预测方法，其特征在于包括以下步骤：

输入一段核糖核酸碱基序列；

定义k茎、半扩展结构；

建立包含k茎和半扩展结构的核糖核酸假结结构表示模型并计算出模型的最小能量；

根据最小能量原理，输出核糖核酸假结结构。

2.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法，其特征在于：一个半扩展结构由两个核糖核酸序列片断s_i,k和s_l,j构成，i<k<l<j。

3.根据权利要求2所述的基于半扩展结构的核糖核酸假结结构的预测方法，其特征在于：两个核糖核酸序列片断中可存在p和q，i<p<q<k，使s_p,q和s_l,j构成k茎，F[i,k:j]为其最优半扩展结构。

4.根据权利要求2所述的基于半扩展结构的核糖核酸假结结构的预测方法，其特征在于：两个核糖核酸序列片断中可存在p和q，l<p<q<j，使s_p,q和s_i,k构成k茎，F[i:l,j]为其最优半扩展结构。

5.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法，其特征在于：W(i,j)为子序列s_i,j对应的包含假结的二级结构S的最小能量，计算W(i,j)的情况包括：碱基s_i是和s_j都是未配对碱基；s_i和s_j不构成基对(i,j)且在不同子序列s_i,k和s_k+1,j对应的二级结构中，i<k<j；V(i,j)为子序列s_i,j对应的包含假结的二级结构S的最小能量，计算V(i,j)的情况包括：s_i和s_j构成基对(i,j)；s_i,j由一个半扩展结构和一个子序列构成；s_i,j由一个半扩展结构和一个子序列构成。

6.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法，其特征在于：V(i,j)是s_i和s_j构成基对(i,j)时，子序列s_i,j对应的包含假结的二级结构S的最小能量，计算V(i,j)情况包括：S是由基对(i,j)封闭的1环，或者S是由基对(i,j)和(k,l)封闭的2环，或者S是k环(k≥3)或者假结结构，i<k<j。

7.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法，其特征在于：计算一个半扩展结构的情况包括：一个半扩展结构由另一个半扩展结构和一个未配对碱基构成，一个半扩展结构由另一个半扩展结构和一个子序列构成，一个半扩展结构由另外的两个半扩展结构构成，一个半扩展结构是一个k茎或2环。

8.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法，其特征在于：使用动态规划法计算W(i,j)、V(i,j)和半扩展结构的最小能量。

9.一种基于半扩展结构的核糖核酸假结结构的预测装置，其特征在于包括：

输入单元，其输入一段核糖核酸碱基序列；

初始化单元，其定义k茎和半扩展结构；

存储单元，其存储建立的包含k茎和半扩展结构的核糖核酸假结结构表示模型和相应的最小能量的计算式；

输出单元，其根据最小能量原理，输出核糖核酸碱基序列的RNA结构。